模型卡片
引言
模型卡片是理解、共享和改進機器學習模型的重要文件框架。如果做得好,模型卡片可以作為一種邊界物件,一個單一的工件,可供具有不同背景和目標的人理解模型——包括開發者、學生、政策制定者、倫理學家以及受機器學習模型影響的人。
今天,我們釋出了一個模型卡片建立工具和一本模型卡片指南,詳細介紹瞭如何填寫模型卡片、使用者研究以及機器學習文件的最新進展。這項工作以許多其他個人和組織的工作為基礎,側重於不同背景和角色人群的包容性。我們希望它能成為改進機器學習文件的墊腳石。
總而言之,我們今天宣佈釋出:
一個模型卡片建立工具,旨在簡化卡片建立,無需程式設計,並幫助團隊分擔不同部分的工作。
一個更新的模型卡片模板,在
huggingface_hub
庫中釋出,彙集了學術界和整個行業在模型卡片方面的工作。一個帶註釋的模型卡片模板,詳細說明了如何填寫卡片。
一份關於 Hugging Face 模型卡片使用情況的使用者研究。
一份關於模型文件最新進展的全景分析和文獻綜述。
迄今為止的模型卡片
自 Mitchell 等人(2018)提出模型卡片以來,受自然語言處理資料宣告(Bender & Friedman,2018)和資料集資料表(Gebru 等人,2018)等主要文件框架工作的啟發,機器學習文件的格局不斷擴大和演變。大量用於資料、模型和機器學習系統的文件工具和模板被提出和開發——這反映了數百名研究人員、受影響的社群成員、倡導者和其他利益相關者的傑出工作。關於機器學習文件與負責任人工智慧變革理論之間關係的重要討論也塑造了機器學習文件生態系統的這些發展。
迄今為止,機器學習文件方面的工作已為不同受眾提供了支援。我們今天分享的工作將這些思想中的許多整合在一起。
我們的工作
我們的工作展示了模型卡片的當前狀況以及未來的發展方向。我們對不斷發展的機器學習文件工具進行了廣泛分析,並在 Hugging Face 內部進行了使用者訪談,以補充我們對模型卡片不同意見的理解。我們還為 Hugging Face Hub 上的機器學習模型建立或更新了幾十個模型卡片,並根據所有這些經驗,提出了一個新的模型卡片模板。
模型卡片結構的標準化
透過我們的背景研究和使用者研究(在指南中有進一步討論),我們旨在建立公眾對“模型卡片”理解的新標準。
根據這些發現,我們建立了一個新的模型卡片模板,它不僅標準化了 Hugging Face 模型卡片的結構和內容,還提供了預設的提示文字。該文字旨在幫助編寫模型卡片部分,特別關注“偏差、風險和限制”部分。
可訪問性和包容性
為了降低建立模型卡片的門檻,我們設計了模型卡片編寫工具,它是一個帶有圖形使用者介面(GUI)的工具,可讓具有不同技能和角色的個人和團隊輕鬆協作建立模型卡片,而無需編碼或使用 Markdown。
該編寫工具鼓勵尚未編寫模型卡片的人更容易地建立它們。對於以前編寫過模型卡片的人來說,這種方法邀請他們在提示資訊的基礎上進行補充——同時強調模型文件的倫理組成部分。
隨著機器學習與不同領域的聯絡越來越緊密,以可訪問性、倫理和包容性為中心的協作式開源機器學習流程是機器學習生命週期中的關鍵組成部分,也是機器學習文件的基石。
今天的釋出是機器學習文件工作大生態系統中的一部分:資料和模型文件已被許多科技公司(包括 Hugging Face 🤗)採用。我們優先考慮資料集卡片和模型卡片的“儲存庫卡片”,側重於多學科性。沿著這條工作線,模型卡片建立使用者介面工具側重於包容性,提供格式和提示指導,以幫助具有不同背景的人建立卡片。
行動號召
展望未來
這項工作是模型卡片當前狀態的“快照”,它基於對機器學習文件工件例項化方式的全景分析。模型手冊和這些發現代表了關於模型卡片當前狀態和更具抱負的願景的多種視角之一。
- Hugging Face 生態系統將繼續推進簡化模型卡片建立的方法,包括透過程式碼和使用者介面,包括將更多功能直接構建到儲存庫和產品中。
- 隨著我們進一步開發諸如Hub 上的評估等模型工具,我們將把它們的使用整合到模型卡片開發工作流程中。例如,隨著自動評估模型在不同分解因素上的效能變得更容易,這些結果將可以匯入到模型卡片中。
- 仍需進行進一步研究以推進研究模型與模型卡片的配對,例如構建研究論文→模型文件管道,使其可以輕鬆地從論文到模型卡片建立。這將允許更大的跨領域覆蓋和模型文件的進一步標準化。
我們將繼續深入瞭解模型卡片是如何建立和使用的,以及卡片對模型使用的影響。根據這些學習,我們將進一步更新模型卡片模板、說明和 Hub 整合。
當我們努力將更多聲音和利益相關者對模型卡片的使用案例納入其中時,請收藏我們的模型卡片編寫工具並嘗試一下!
我們很高興能瞭解您對模型卡片、我們的模型卡片編寫 GUI 以及 AI 文件如何賦能您領域的想法。🤗
致謝
此次釋出離不開 Omar Sanseviero、Lucain Pouget、Julien Chaumond、Nazneen Rajani 和 Nate Raw 的巨大貢獻。