LLM 課程文件
構建模型卡
並獲得增強的文件體驗
開始使用
構建模型卡
模型卡是一個檔案,它在模型倉庫中的重要性可能與模型和分詞器檔案一樣。它是模型的中心定義,確保了社群其他成員的可重用性和結果的可復現性,並提供了一個平臺,其他成員可以在其上構建他們的工件。
記錄訓練和評估過程有助於他人理解模型的預期表現 — 並提供關於所用資料以及所做的預處理和後處理的足夠資訊,以確保可以識別和理解模型有用和無用的限制、偏差和上下文。
因此,建立一個清晰定義您的模型模型卡是非常重要的一步。在這裡,我們提供了一些將幫助您實現此目的的提示。模型卡的建立是透過您之前看到的 *README.md* 檔案完成的,它是一個 Markdown 檔案。
“模型卡”概念源於 Google 的一項研究方向,最初由 Margaret Mitchell 等人在論文 “Model Cards for Model Reporting” 中分享。這裡包含的大量資訊都是基於該論文,我們建議您閱讀該論文,以瞭解在重視可復現性、可重用性和公平性的世界中,模型卡為何如此重要。
模型卡通常以對模型用途的簡要、高階概述開始,然後是以下章節的補充細節:
- 模型描述
- 預期用途和限制
- 如何使用
- 侷限性和偏見
- 訓練資料
- 訓練過程
- 評估結果
讓我們來看看每個部分應該包含什麼。
模型描述
模型描述提供了關於模型的基本資訊。這包括架構、版本、是否在論文中介紹、是否有原始實現可用、作者以及關於模型的通用資訊。任何版權都應在此處註明。關於訓練過程、引數和重要免責宣告的通用資訊也可以在此部分提及。
預期用途和限制
在此處描述模型的預期用例,包括可以應用它的語言、領域和領域。模型卡的此部分還可以記錄已知超出模型範圍的區域,或者模型可能表現不佳的區域。
如何使用
本節應包含一些如何使用模型的示例。這可以展示 `pipeline()` 函式的使用、模型和分詞器類的使用,以及您認為可能有用的任何其他程式碼。
訓練資料
此部分應指明模型所訓練的資料集。也歡迎簡要描述資料集。
訓練過程
在本節中,您應描述從可復現性角度有用的所有相關訓練方面。這包括對資料進行的任何預處理和後處理,以及諸如模型訓練的輪次、批次大小、學習率等詳細資訊。
變數和指標
在此處,您應描述用於評估的指標以及您正在衡量的不同因素。提及使用了哪些指標、在哪個資料集以及哪個資料集劃分上進行評估,可以輕鬆比較模型效能與其他模型的效能。這些應由之前的章節(例如預期使用者和用例)提供資訊。
評估結果
最後,提供模型在評估資料集上的表現指示。如果模型使用決策閾值,請提供評估中使用的決策閾值,或提供不同閾值下的評估詳情以供預期用途。
示例
請檢視以下一些精心製作的模型卡示例:
更多來自不同組織和公司的示例可在此處找到:此處。
注意
釋出模型時,模型卡並非強制要求,您也無需包含上述所有章節。然而,明確的模型文件只會讓未來的使用者受益,因此我們建議您儘可能地填寫儘可能多的章節。
模型卡元資料
如果您對 Hugging Face Hub 進行了一些探索,您應該會發現某些模型屬於特定類別:您可以按任務、語言、庫等進行篩選。模型所屬的類別是根據您在模型卡頭中新增的元資料來識別的。
例如,如果您檢視 camembert-base
模型卡,您應該在模型卡頭中看到以下幾行:
---
language: fr
license: mit
datasets:
- oscar
---
此元資料由 Hugging Face Hub 解析,然後將此模型識別為法語模型,具有 MIT 許可證,在 Oscar 資料集上訓練。
完整的模型卡規範允許指定語言、許可證、標籤、資料集、指標以及模型在訓練時獲得的評估結果。
< > 在 GitHub 上更新