Hub 文件
資料集卡片 (Dataset Cards)
並獲得增強的文件體驗
開始使用
資料集卡片
什麼是資料集卡片?
每個資料集都可以透過儲存庫中的 README.md
檔案進行文件說明。此檔案稱為資料集卡片,Hugging Face Hub 將在其資料集主頁上呈現其內容。為了告知使用者如何負責任地使用資料,最好包含有關資料集中任何潛在偏差的資訊。通常,資料集卡片可幫助使用者瞭解資料集的內容並提供資料集應如何使用的上下文。
您還可以將資料集元資料新增到卡片中。元資料描述了有關資料集的重要資訊,例如其許可證、語言和大小。它還包含用於幫助使用者在 Hub 上發現數據集的標籤,以及資料檔案配置選項。標籤在 README.md
檔案頂部的 YAML 元資料部分中定義。
資料集卡片元資料
資料集倉庫會將其 README.md 渲染為資料集卡片。為了控制 Hub 顯示卡片的方式,您應該在 README 檔案中建立一個 YAML 部分來定義一些元資料。首先在頂部新增三個 ---,然後包含所有相關元資料,最後用另一組 --- 關閉該部分,如下例所示
language:
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2
您新增到資料集卡片的元資料可以在 Hub 上啟用某些互動。例如
- 允許使用者在 https://huggingface.co/datasets 上過濾和發現數據集。
- 如果您使用此表右列中列出的關鍵字選擇許可證,則該許可證將顯示在資料集頁面上。
在 Hub 上的資料集儲存庫中建立 README.md 檔案時,請使用元資料 UI 填充主要元資料


要檢視元資料欄位,請參閱詳細的資料集卡片規範。
資料集卡片建立指南
有關建立資料集卡片的逐步指南,請參閱建立資料集卡片指南。
閱讀現有資料集卡片,例如 ELI5 資料集卡片,是熟悉常見慣例的好方法。
連結論文
如果資料集卡片包含指向 arXiv 論文的連結,Hub 將提取 arXiv ID 並將其以 arxiv:<論文 ID>
的格式包含在資料集標籤中。點選標籤將允許您
- 訪問論文頁面
- 篩選 Hub 上引用同一論文的其他模型。


在此處瞭解更多有關論文頁面的資訊:這裡。
強制設定資料集模態
Hub 會根據資料集中包含的檔案(音訊、影片、地理空間等)自動檢測資料集的模態。如果您想強制指定特定模態,可以將標籤新增到資料集卡片元資料中:3d
、audio
、geospatial
、image
、tabular
、text
、timeseries
、video
。
例如,要強制模態為 audio
,請將以下內容新增到資料集卡片元資料中
tags:
- audio
將庫與資料集關聯
資料集頁面會自動顯示能夠原生載入資料集的庫和工具,但如果您想顯示另一個特定的庫,可以將標籤新增到資料集卡片元資料中:argilla
、dask
、datasets
、distilabel
、fiftyone
、mlcroissant
、pandas
、webdataset
。有關更多資訊,請參閱支援庫列表,或建議新增新庫。
例如,要將 argilla
庫與資料集卡片關聯,請將以下內容新增到資料集卡片元資料中
tags:
- argilla