附錄

附錄 A：使用者研究

關鍵問題的完整文本回答

您如何定義模型卡？

洞察：受訪者對模型卡的看法大體相似：側重於訓練、用例以及偏差/限制等問題的文件。

模型卡是模型的描述，包括它們的訓練方式、用例以及潛在的偏差和限制。
描述模型基本特徵的文件，以便讀者/使用者瞭解其面對的人工智慧產物、背景/訓練方式、如何使用以及其技術/倫理限制。
它們是模型的活生生的產物，用於記錄模型。模型卡包含從特定模型用途的高階描述到限制、偏見、指標等大量資訊。它們主要用於理解模型的功能。
模型卡之於模型，如同 GitHub README 之於 GitHub 專案。它告訴人們關於模型所需瞭解的一切資訊。如果你不寫，沒有人會使用你的模型。
據我所知，模型卡使用某些基準（地理、文化、性別等）來定義模型可用性和侷限性。它本質上是模型的“營養成分標籤”，可以顯示模型的建立方式，並教育他人瞭解其可重用性。
模型卡是關於模型的元資料和文件，是我正確使用模型所需瞭解的一切：關於模型的資訊、引入它的論文、它是在什麼資料集上訓練或微調的、它屬於誰、這個模型是否存在已知的風險和限制，以及任何有用的技術資訊。
在我看來，模型卡是對模型的簡要介紹，包括
- 模型架構特殊性的簡要總結
- 描述其訓練資料
- 在參考資料集上的效能（如果可能，包括準確性和速度指標）
- 限制
- 如何在 Transformer 庫中使用它
- 來源（原始文章、Github 倉庫等）
易於查閱的文件，任何背景的人都可以閱讀並瞭解關鍵的模型元件和社會影響

您喜歡模型卡的哪些方面？

它們對於向人們介紹新模型很有趣
作為非技術人員，瞭解模型、理解其基本原理的可能性，是作者以透明且可解釋（即值得信賴）的方式展示其創新的機會。
我喜歡帶有視覺化和小部件的互動式模型卡，這讓我可以在不執行任何程式碼的情況下嘗試模型。
我喜歡優秀的模型卡，因為你可以找到關於該特定模型所需的所有資訊。
模型卡對於人工智慧倫理領域具有革命性意義。它是減輕/教育機器學習偏見的第一個切實步驟之一。它們促進了更大的意識和問責制！
結構化，詳盡，資訊越多越好。
它有助於瞭解模型擅長（或不擅長）什麼。
簡潔性和可訪問性

您不喜歡模型卡的哪些方面？

可能過於技術化和/或內容密集
它們包含針對不同受眾（研究人員、工程師、非工程師）的大量資訊，因此很難根據預期的用例來探索模型卡。 * [注意：此評論可透過針對不同受眾的切換檢視來解決]
優秀的模型卡需要耗費大量時間來建立。它們難以測試以確保資訊是最新的。很多時候，模型卡的格式完全不同——所以你必須自己摸索那個特定的人是如何構建他們的模型卡的。 * [注意：此評論有助於說明標準化格式和自動化工具在簡化模型卡建立方面的價值]
如果沒有社群的幫助來提供補充評估，模型卡可能會受到開發人員可能沒有意識到的固有偏見的影響。它們尚處於早期階段，但如果沒有更徹底的評估，模型卡的資訊可能過於有限。
空的模型卡。沒有許可證資訊——客戶需要這些資訊，但通常沒有。
它們通常要麼過於簡潔，要麼過於冗長。
寫它們簡直要了我的老命，祝你好運

其他關鍵新見解

模型卡最好由不同角色的人填寫：技術規範通常只能由開發人員填寫；整個倫理考量通常最好由從事倫理問題的人員提供資訊。
模型使用者非常關心許可證——特別是模型是否可以合法地用於特定任務。

附錄 B：景觀分析

機器學習中模型文件現狀概述

模型卡示例

模型卡及密切相關變體的示例包括：

Google Cloud: 人臉檢測, 物體檢測
谷歌研究：ML Kit 視覺模型, 人臉檢測, 對話 AI
OpenAI：GPT-3, GPT-2, DALL-E dVAE, CLIP
英偉達模型卡
Salesforce 模型卡
艾倫人工智慧模型卡
Co:here AI 模型卡
杜克 PULSE 模型卡
斯坦福 Dynasent
GEM 模型卡
Parl.AI：Parl.AI 示例模型卡, BlenderBot 2.0 2.7B
Perspective API 模型卡
更多示例請參見https://github.com/ivylee/model-cards-and-datasheets！

大型語言模型的模型卡

大型語言模型通常會隨附相關文件釋出。擁有相關模型卡（或相關文件工具）的大型語言模型包括：

模型卡生成工具

用於程式化或互動式生成模型卡的工具包括：

模型卡教育工具

用於理解模型卡和學習如何建立模型卡的工具包括：

請引用：Ozoani, Ezi 和 Gerchick, Marissa 和 Mitchell, Margaret. 模型卡指南。Hugging Face, 2022. https://huggingface.co/docs/hub/en/model-card-guidebook

< > 在 GitHub 上更新

中心

附錄