構建模型卡

模型卡是一個檔案，它與模型和分詞器檔案一樣重要，甚至可以說更重要。它是模型的中心定義，可以確保其他社群成員可以重複使用模型，並確保結果的可重複性，同時提供一個平臺，讓其他成員可以在此基礎上構建自己的工件。

記錄訓練和評估過程有助於其他人瞭解對模型的預期——提供有關所使用資料以及進行的預處理和後處理的充分資訊，可以確保識別和理解模型的侷限性、偏差和適用及不適用的情境。

因此，建立一個明確定義模型的模型卡非常重要。這裡，我們提供一些提示來幫助您完成此操作。建立模型卡是透過您之前看到的README.md檔案完成的，它是一個 Markdown 檔案。

“模型卡”的概念起源於 Google 的一個研究方向，最早在 Margaret Mitchell 等人的論文“Model Cards for Model Reporting”中分享。這裡包含的許多資訊都基於該論文，我們建議您閱讀一下，以瞭解為什麼在重視可重複性、可重用性和公平性的世界中，模型卡如此重要。

模型卡通常從對模型用途的簡短、高階概述開始，然後在以下部分提供更多詳細資訊

模型描述
預期用途和侷限性
如何使用
侷限性和偏差
訓練資料
訓練過程
評估結果

讓我們看看每個部分應該包含什麼。

模型描述

模型描述提供了有關模型的基本詳細資訊。包括架構、版本、是否在論文中介紹過、是否有原始實現可用、作者以及有關模型的概況資訊。任何版權應在此處進行歸屬。有關訓練過程、引數和重要免責宣告的概況資訊也可以在本節中提及。

預期用途和侷限性

在這裡，您描述了模型的預期用例，包括可以應用模型的語言、領域和範圍。模型卡的這一部分還可以記錄已知超出模型範圍或可能表現不佳的區域。

如何使用

本節應包括一些有關如何使用模型的示例。這可以展示pipeline()函式的使用、模型和分詞器類的使用以及您認為可能有幫助的任何其他程式碼。

訓練資料

這部分應表明模型是在哪些資料集上訓練的。歡迎簡要介紹資料集。

訓練過程

在本節中，您應該描述從可重複性角度來看所有與訓練相關的方面。這包括對資料進行的任何預處理和後處理，以及模型訓練的輪次數量、批次大小、學習率等詳細資訊。

變數和指標

在這裡，您應該描述用於評估的指標以及要衡量的不同因素。提及哪些指標、在哪個資料集和哪個資料集拆分上使用，可以輕鬆比較模型的效能與其他模型的效能。這些應基於前面的部分，例如預期使用者和用例。

評估結果

最後，請說明模型在評估資料集上的表現。如果模型使用決策閾值，請提供評估中使用的決策閾值，或提供針對預期用途的不同閾值下的評估詳細資訊。

示例

檢視以下內容，獲取一些精心製作的模型卡示例

更多來自不同組織和公司的示例請點選這裡檢視。

注意

釋出模型時，模型卡並非強制要求，您在建立模型卡時也不必包含上面描述的所有部分。但是，顯式記錄模型只會對未來使用者有利，因此我們建議您儘可能多地填寫您所知和所能做到的部分。

模型卡元資料

如果您已經探索過 Hugging Face Hub，您應該已經看到一些模型屬於特定的類別：您可以按任務、語言、庫等進行過濾。模型所屬的類別是根據您在模型卡標題中新增的元資料確定的。

例如，如果您檢視camembert-base 模型卡，您應該在模型卡標題中看到以下行

---
language: fr
license: mit
datasets:
- oscar
---

此元資料由 Hugging Face Hub 解析，然後識別此模型為法語模型，使用 MIT 許可證，在 Oscar 資料集上進行訓練。

該完整模型卡規範允許指定語言、許可證、標籤、資料集、指標以及模型在訓練時獲得的評估結果。

NLP 課程