構建模型卡

模型卡是一個檔案，它在模型倉庫中的重要性可能與模型和分詞器檔案一樣。它是模型的中心定義，確保了社群其他成員的可重用性和結果的可復現性，並提供了一個平臺，其他成員可以在其上構建他們的工件。

記錄訓練和評估過程有助於他人理解模型的預期表現 — 並提供關於所用資料以及所做的預處理和後處理的足夠資訊，以確保可以識別和理解模型有用和無用的限制、偏差和上下文。

因此，建立一個清晰定義您的模型模型卡是非常重要的一步。在這裡，我們提供了一些將幫助您實現此目的的提示。模型卡的建立是透過您之前看到的 *README.md* 檔案完成的，它是一個 Markdown 檔案。

“模型卡”概念源於 Google 的一項研究方向，最初由 Margaret Mitchell 等人在論文 “Model Cards for Model Reporting” 中分享。這裡包含的大量資訊都是基於該論文，我們建議您閱讀該論文，以瞭解在重視可復現性、可重用性和公平性的世界中，模型卡為何如此重要。

模型卡通常以對模型用途的簡要、高階概述開始，然後是以下章節的補充細節：

模型描述
預期用途和限制
如何使用
侷限性和偏見
訓練資料
訓練過程
評估結果

讓我們來看看每個部分應該包含什麼。

模型描述

模型描述提供了關於模型的基本資訊。這包括架構、版本、是否在論文中介紹、是否有原始實現可用、作者以及關於模型的通用資訊。任何版權都應在此處註明。關於訓練過程、引數和重要免責宣告的通用資訊也可以在此部分提及。

預期用途和限制

在此處描述模型的預期用例，包括可以應用它的語言、領域和領域。模型卡的此部分還可以記錄已知超出模型範圍的區域，或者模型可能表現不佳的區域。

如何使用

本節應包含一些如何使用模型的示例。這可以展示 `pipeline()` 函式的使用、模型和分詞器類的使用，以及您認為可能有用的任何其他程式碼。

訓練資料

此部分應指明模型所訓練的資料集。也歡迎簡要描述資料集。

訓練過程

在本節中，您應描述從可復現性角度有用的所有相關訓練方面。這包括對資料進行的任何預處理和後處理，以及諸如模型訓練的輪次、批次大小、學習率等詳細資訊。

變數和指標

在此處，您應描述用於評估的指標以及您正在衡量的不同因素。提及使用了哪些指標、在哪個資料集以及哪個資料集劃分上進行評估，可以輕鬆比較模型效能與其他模型的效能。這些應由之前的章節（例如預期使用者和用例）提供資訊。

評估結果

最後，提供模型在評估資料集上的表現指示。如果模型使用決策閾值，請提供評估中使用的決策閾值，或提供不同閾值下的評估詳情以供預期用途。

示例

請檢視以下一些精心製作的模型卡示例：

更多來自不同組織和公司的示例可在此處找到：此處。

注意

釋出模型時，模型卡並非強制要求，您也無需包含上述所有章節。然而，明確的模型文件只會讓未來的使用者受益，因此我們建議您儘可能地填寫儘可能多的章節。

模型卡元資料

如果您對 Hugging Face Hub 進行了一些探索，您應該會發現某些模型屬於特定類別：您可以按任務、語言、庫等進行篩選。模型所屬的類別是根據您在模型卡頭中新增的元資料來識別的。

例如，如果您檢視 camembert-base 模型卡，您應該在模型卡頭中看到以下幾行：

---
language: fr
license: mit
datasets:
- oscar
---

此元資料由 Hugging Face Hub 解析，然後將此模型識別為法語模型，具有 MIT 許可證，在 Oscar 資料集上訓練。

完整的模型卡規範允許指定語言、許可證、標籤、資料集、指標以及模型在訓練時獲得的評估結果。

< > 在 GitHub 上更新

LLM 課程