Datasets 文件
將資料集共享到 Hub
並獲得增強的文件體驗
開始使用
將資料集共享到 Hub
Hub 是一個彙集了大量社群精心策劃和熱門研究資料集的地方。我們鼓勵您將您的資料集分享到 Hub,以幫助壯大機器學習社群並加速每個人的進步。我們歡迎所有貢獻;新增一個數據集就像拖放一樣簡單!
如果您還沒有 Hugging Face Hub 賬戶,請先建立一個。
使用 Hub UI 上傳
Hub 的網頁介面允許沒有任何開發經驗的使用者上傳資料集。
建立儲存庫
儲存庫託管您所有的資料集檔案,包括修訂歷史記錄,這使得儲存多個版本的資料整合為可能。
- 點選您的個人資料並選擇 New Dataset (新建資料集) 來建立一個新的資料集儲存庫。
- 為您的資料集選擇一個名稱,並選擇它是公共資料集還是私有資料集。公共資料集對任何人可見,而私有資料集只能由您或您的組織成員檢視。

上傳資料集
建立儲存庫後,導航到 Files and versions (檔案和版本) 選項卡以新增檔案。選擇 Add file (新增檔案) 上傳您的資料集檔案。我們支援許多文字、音訊和影像資料副檔名,例如
.csv
、.mp3
和.jpg
等等。對於像.csv
、.json
、.jsonl
和.txt
這樣的文字資料副檔名,我們建議在上傳到 Hub 之前將它們壓縮(例如壓縮成.zip
或.gz
副檔名)。預設情況下,文字副檔名不受 Git LFS 跟蹤,如果它們大於10MB,則不會被提交和上傳。請檢視儲存庫中的
.gitattributes
檔案以獲取完整的被跟蹤副檔名列表。在本教程中,您可以使用以下示例.csv
檔案,因為它們很小:train.csv、test.csv。

- 拖放您的資料集檔案,並新增一個簡短的描述性提交訊息。

- 上傳資料集檔案後,它們將儲存在您的資料集儲存庫中。

建立資料集卡片
新增資料集卡片對於幫助使用者找到您的資料集並瞭解如何負責任地使用它非常有價值。
- 點選 Create Dataset Card (建立資料集卡片) 來建立資料集卡片。此按鈕會在您的儲存庫中建立一個
README.md
檔案。

在頂部,您會看到 Metadata UI (元資料介面),其中有幾個欄位可供選擇,例如許可證、語言和任務類別。這些是幫助使用者在 Hub 上發現您的資料集的最重要標籤。當您從每個欄位中選擇一個選項時,它們將自動新增到資料集卡片的頂部。
您也可以檢視 資料集卡片規範,其中包含一套完整的(但非必需的)標籤選項,例如
annotations_creators
,以幫助您選擇適當的標籤。

- 點選編輯器頂部的 Import dataset card template (匯入資料集卡片模板) 連結,可以自動建立一個數據集卡片模板。填寫模板是向社群介紹您的資料集並幫助使用者瞭解如何使用它的好方法。要檢視一個好的資料集卡片應該是什麼樣的詳細示例,請檢視 CNN DailyMail 資料集卡片。
載入資料集
一旦您的資料集儲存在 Hub 上,任何人都可以使用 load_dataset() 函式載入它。
>>> from datasets import load_dataset
>>> dataset = load_dataset("stevhliu/demo")
使用 Python 上傳
喜歡以程式設計方式上傳資料集的使用者可以使用 huggingface_hub 庫。該庫允許使用者透過 Python 與 Hub 進行互動。
- 首先安裝該庫
pip install huggingface_hub
- 要在 Python 中上傳資料集到 Hub,您需要登入到您的 Hugging Face 賬戶
huggingface-cli login
- 使用
push_to_hub()
函式來幫助您新增、提交和推送檔案到您的儲存庫
>>> from datasets import load_dataset
>>> dataset = load_dataset("stevhliu/demo")
# dataset = dataset.map(...) # do all your processing here
>>> dataset.push_to_hub("stevhliu/processed_demo")
要將您的資料集設定為私有,請將 private
引數設定為 True
。此引數僅在您首次建立儲存庫時有效。
>>> dataset.push_to_hub("stevhliu/private_processed_demo", private=True)
要向資料集新增新配置(或子集)或新增新的拆分(訓練/驗證/測試),請參考 Dataset.push_to_hub() 文件。
隱私
私有資料集僅對您可見。同樣,如果您在組織內共享資料集,則組織成員也可以訪問該資料集。
透過向 token
引數提供您的身份驗證令牌來載入私有資料集
>>> from datasets import load_dataset
# Load a private individual dataset
>>> dataset = load_dataset("stevhliu/demo", token=True)
# Load a private organization dataset
>>> dataset = load_dataset("organization/dataset_name", token=True)
接下來做什麼?
恭喜,您已完成本教程!🥳
從這裡開始,您可以繼續
- 瞭解更多關於如何使用 🤗 Datasets 的其他功能來 處理您的資料集。
- 流式傳輸大型資料集,而無需在本地下載。
- 定義您的資料集拆分和配置,並與社群分享您的資料集。
如果您對 🤗 Datasets 有任何疑問,歡迎加入我們的論壇提問。
< > 在 GitHub 上更新