Datasets 文件

建立資料集卡片

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

建立資料集卡片

每個資料集都應該有一張資料集卡片,以促進負責任的使用,並告知使用者資料集中存在的任何潛在偏見。這個想法的靈感來自於 Mitchell 等人於 2018 年提出的模型卡片。資料集卡片可以幫助使用者瞭解資料集的內容、使用資料集的背景、資料集的建立方式,以及使用者應注意的任何其他考慮因素。

建立資料集卡片非常簡單,只需幾個步驟即可完成。

  1. 轉到您在 Hub 上的資料集倉庫,點選 Create Dataset Card(建立資料集卡片)以在您的倉庫中建立一個新的 README.md 檔案。

  2. 使用 Metadata UI(元資料使用者介面)選擇描述您資料集的標籤。您可以新增許可證、語言、`pretty_name`(美觀名稱)、`task_categories`(任務類別)、`size_categories`(大小類別)以及您認為相關的任何其他標籤。這些標籤有助於使用者在 Hub 上發現和找到您的資料集。

要檢視完整但非必需的標籤選項集,您還可以參考資料集卡片規範。其中包含一些更有用但並非絕對必要的標籤選項,例如 multilinguality(多語言性)和 language_creators(語言建立者)。

  1. 點選 Import dataset card template(匯入資料集卡片模板)連結,可以自動建立一個包含所有相關待填寫欄位的模板。請盡您所能填寫模板的各個部分。有關卡片各部分應包含內容的更詳細資訊,請參閱資料集卡片建立指南。對於您無法完成的欄位,可以填寫 [More Information Needed](需要更多資訊)。

  2. 完成後,提交對 README.md 檔案的更改,您將在您的倉庫中看到已完成的資料集卡片。

YAML 還允許您透過定義資料集劃分和/或配置來自定義資料集的載入方式,而無需編寫任何程式碼。

您可以隨時檢視 SNLICNN/DailyMailAllociné 資料集卡片作為示例,以幫助您開始。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.