Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

上傳資料集

Hub 擁有大量社群整理和研究資料集。我們鼓勵您將資料集分享到 Hub,以幫助壯大機器學習社群並加速每個人的進步。歡迎所有貢獻;新增資料集只需拖放即可!

如果尚未建立 Hugging Face Hub 帳戶,請先建立一個帳戶

使用 Hub UI 上傳

Hub 的基於 Web 的介面允許沒有任何開發經驗的使用者上傳資料集。

建立倉庫

倉庫包含所有資料集檔案,包括修訂歷史記錄,這使得可以儲存多個數據集版本。

  1. 單擊您的個人資料並選擇 New Dataset 以建立新的資料集倉庫
  2. 為您的資料集選擇一個名稱,並選擇它是公共資料集還是私有資料集。公共資料集對任何人可見,而私有資料集只能由您或您組織成員檢視。

上傳資料集

  1. 建立倉庫後,導航到 Files and versions 選項卡以新增檔案。選擇 Add file 上傳您的資料集檔案。我們支援多種文字、音訊、影像和其他資料副檔名,例如 .csv.mp3.jpg(請參閱檔案格式的完整列表)。
  1. 拖放您的資料集檔案。
  1. 上傳資料集檔案後,它們會儲存在您的資料集倉庫中。

建立資料集卡片

新增資料集卡片對於幫助使用者找到您的資料集並理解如何負責任地使用它非常有價值。

  1. 點選 Create Dataset Card 以建立資料集卡片。此按鈕會在您的倉庫中建立 README.md 檔案。
  1. 在頂部,您會看到一個 Metadata UI,其中包含多個欄位可供選擇,例如許可證、語言和任務類別。這些是最重要的標籤,可以幫助使用者在 Hub 上發現您的資料集(如果適用)。當您為欄位選擇一個選項時,它會自動新增到資料集卡片的頂部。

    您還可以檢視資料集卡片規範,其中包含一套完整的允許標籤,包括像 annotations_creators 這樣的可選標籤,以幫助您選擇對您的資料集有用的標籤。

  1. 在資料集卡片中編寫您的資料集文件,向社群介紹您的資料集,並幫助使用者瞭解其內容:用例和限制是什麼,資料來源,重要的倫理考量以及任何其他相關細節。

    您可以點選編輯器頂部的 Import dataset card template 連結,自動建立一個數據集卡片模板。有關優秀資料集卡片應如何的詳細示例,請檢視CNN DailyMail 資料集卡片

使用 huggingface_hub 客戶端庫

huggingface_hub 庫中豐富的功能集允許您管理倉庫,包括建立倉庫並將資料集上傳到 Hub。訪問客戶端庫的文件以瞭解更多資訊。

使用其他庫

一些庫,如 🤗 DatasetsPandasPolarsDaskDuckDB 可以將檔案上傳到 Hub。有關更多資訊,請參閱Datasets Hub 支援的庫列表。

使用 Git

由於資料集倉庫是 Git 倉庫,您可以使用 Git 將您的資料檔案推送到 Hub。請按照倉庫入門指南瞭解如何使用 git CLI 提交和推送您的資料集。

檔案格式

Hub 原生支援多種檔案格式

  • Parquet (.parquet)
  • CSV (.csv, .tsv)
  • JSON Lines, JSON (.jsonl, .json)
  • Arrow streaming format (.arrow)
  • Text (.txt)
  • Images (.png, .jpg, etc.)
  • Audio (.wav, .mp3, etc.)
  • PDF (.pdf)
  • WebDataset (.tar)

它支援使用 ZIP (.zip)、GZIP (.gz)、ZSTD (.zst)、BZ2 (.bz2)、LZ4 (.lz4) 和 LZMA (.xz) 壓縮的檔案。

影像和音訊檔案還可以擁有額外的元資料檔案。請參閱有關影像和音訊資料集的資料檔案配置,以及 CSV、TSV 和影像的示例資料集集合。

您可能需要將檔案轉換為這些格式才能利用 Hub 的所有功能。其他格式和結構可能無法被 Hub 識別。

我應該使用哪種檔案格式?

對於大多數型別的資料集,**Parquet** 是推薦的格式,因為它具有高效的壓縮、豐富的型別以及多種工具支援這種格式並優化了讀取和批處理操作。此外,CSV 或 JSON Lines/JSON 可用於表格資料(巢狀資料首選 JSON Lines)。雖然與 Parquet 相比易於解析,但這些格式不建議用於大小超過幾 GB 的資料。對於影像和音訊資料集,上傳原始檔案對於大多數用例來說是最實用的,因為可以輕鬆訪問單個檔案。對於大規模影像和音訊資料集流,**WebDataset** 應優於原始影像和音訊檔案,以避免訪問單個檔案的開銷。然而,對於涉及分析、資料過濾或元資料解析的更通用用例,Parquet 是大規模影像和音訊資料集的推薦選項。

資料工作室

資料工作室對於在下載資料之前瞭解資料實際外觀很有用。預設情況下,所有公共資料集都已啟用它。它也適用於PRO 使用者企業 Hub 組織擁有的私有資料集。

上傳資料集後,請確保資料集檢視器正確顯示您的資料,或配置資料集檢視器

大規模資料集

Hugging Face Hub 支援大規模資料集,通常以 Parquet 格式(例如透過使用 🤗 Datasetspush_to_hub())或 WebDataset 格式上傳。

您可以使用 huggingface_hub 庫高速上傳大規模資料集。

請參閱如何分塊上傳資料夾大規模上傳的技巧和竅門以及倉庫儲存限制和建議

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.