在 Hugging Face Hub 上分享您的開放 ML 資料集!
如果您正在進行資料密集型研究或機器學習專案,您需要一種可靠的方式來共享和託管您的資料集。像 Common Crawl、ImageNet、Common Voice 等公共資料集對開放的機器學習生態系統至關重要,但它們的託管和共享可能具有挑戰性。
Hugging Face Hub 使資料集的託管和共享變得無縫,受到許多領先研究機構、公司和政府機構的信任,包括 Nvidia、Google、Stanford、NASA、THUDM 和 Barcelona Supercomputing Center。
透過在 Hugging Face Hub 上託管資料集,您可以立即獲得可最大限度地發揮工作影響的功能
慷慨的限制
支援大型資料集
Hub 可以託管 TB 級別的資料集,具有很高的每個檔案和每個儲存庫的限制。如果您有資料要共享,Hugging Face 資料集團隊可以幫助您建議最佳的資料上傳格式,以供社群使用。🤗 Datasets 庫使得上傳和下載檔案,甚至從頭開始建立資料集變得容易。🤗 Datasets 還支援資料集流式傳輸,使得處理大型資料集無需下載整個資料集。這對於計算資源較少的研究人員處理您的資料集,或者選擇大型資料集的一小部分進行測試、開發或原型設計來說,是無價的。
Hugging Face Hub 可以託管機器學習研究中經常建立的大型資料集。
注意:Xet 團隊目前正在進行後端更新,將每個檔案限制從當前的 50 GB 增加到 500 GB,同時提高儲存和傳輸效率。
資料集檢視器
除了託管資料,Hub 還提供強大的探索工具。藉助資料集檢視器,使用者可以直接在瀏覽器中探索和互動託管在 Hub 上的資料集。這為其他人提供了一種無需先下載即可檢視和探索資料的簡便方法。
Hugging Face 資料集支援多種模態(音訊、影像、影片等)和檔案格式(CSV、JSON、Parquet 等),以及壓縮格式(Gzip、Zip 等)。有關更多詳細資訊,請檢視資料集檔案格式頁面。
Infinity-Instruct 資料集的資料集檢視器。
資料集檢視器還包含一些功能,使資料集探索更加容易。
全文搜尋
內建的全文搜尋是資料集檢視器最強大的功能之一。資料集中的任何文字列都可以立即進行搜尋。
Arxiver 資料集包含 63.4k 行轉換為 Markdown 格式的 arXiv 研究論文。透過使用全文搜尋,可以輕鬆找到包含特定作者(如 Ilya Sutskever)的論文。
排序
資料集檢視器允許您透過單擊列標題來對資料集進行排序。這使得在資料集中找到最相關的示例變得容易。
下面是 HelpSteer2 資料集中按 `helpfulness` 列降序排序的資料集示例。
第三方庫支援
Hugging Face 很幸運能與領先的開源資料工具進行第三方整合。透過在 Hub 上託管資料集,它使資料集立即相容使用者最熟悉的工具。
以下是 Hugging Face 開箱即用支援的一些庫
庫 | 描述 | PyPi 月下載量 (2024) |
---|---|---|
Pandas | Python 資料分析工具包。 | 2.58 億 |
Spark | 分散式環境中的即時、大規模資料處理工具。 | 2900 萬 |
資料集 | 🤗 Datasets 是一個用於訪問和共享音訊、計算機視覺和自然語言處理 (NLP) 資料集的庫。 | 1700 萬 |
Dask | 並行分散式計算庫,可擴充套件現有的 Python 和 PyData 生態系統。 | 1200 萬 |
Polars | 基於 OLAP 查詢引擎的 DataFrame 庫。 | 850 萬 |
DuckDB | 記憶體中 SQL OLAP 資料庫管理系統。 | 600 萬 |
WebDataset | 用於大型資料集 I/O 流水線的庫。 | 87.1 萬 |
Argilla | 重視高質量資料的 AI 工程師和領域專家協作工具。 | 40 萬 |
這些庫中的大多數都允許您用一行程式碼載入或流式傳輸資料集。
以下是 Pandas、Polars 和 DuckDB 的一些示例
# Pandas example
import pandas as pd
df = pd.read_parquet("hf://datasets/neuralwork/arxiver/data/train.parquet")
# Polars example
import polars as pl
df = pl.read_parquet("hf://datasets/neuralwork/arxiver/data/train.parquet")
# DuckDB example - SQL queries
import duckdb
duckdb.sql("SELECT * FROM 'hf://datasets/neuralwork/arxiver/data/train.parquet' LIMIT 10")
您可以在資料集文件中找到有關整合庫的更多資訊。除了上面列出的庫,還有許多社群支援的工具支援 Hugging Face Hub,例如 Lilac 和 Spotlight。
SQL 控制檯
SQL 控制檯提供了一個完全在瀏覽器中執行的互動式 SQL 編輯器,無需任何設定即可實現即時資料探索。主要功能包括:
- 一鍵式:一鍵開啟 SQL 控制檯查詢資料集
- 可共享和可嵌入的結果:共享和嵌入有趣的查詢結果
- 完整的 DuckDB 語法:使用完整的 SQL 語法以及用於正則表示式、列表、JSON、嵌入等的內建函式
在每個公共資料集上,您都應該看到一個新的 SQL 控制檯 徽章。只需單擊一下,即可開啟 SQL 控制檯來查詢該資料集。
安全
雖然資料集的可訪問性很重要,但保護敏感資料也同樣關鍵。Hugging Face Hub 提供強大的安全功能,幫助您在與合適受眾共享資料時保持對資料的控制。
訪問控制
Hugging Face Hub 支援針對誰有權訪問資料集的獨特訪問控制選項。
- 公共:任何人都可以訪問資料集。
- 私人:只有您和您組織中的人員可以訪問資料集。
- 受限:透過兩種選項控制資料集的訪問許可權
- 自動批准:使用者必須提供所需資訊(如姓名和電子郵件)並同意條款才能獲得訪問許可權
- 手動批准:您稽核並手動批准/拒絕每個訪問請求
有關受限資料集的更多詳細資訊,請參閱受限資料集文件。對於更細粒度的控制,企業計劃功能允許組織建立資源安全組、使用SSO等。
內建安全掃描
除了訪問控制,Hugging Face Hub 還提供多種安全掃描器
特性 | 描述 |
---|---|
惡意軟體掃描 | 每次提交和訪問時掃描檔案是否存在惡意軟體和可疑內容 |
秘密掃描 | 阻止包含硬編碼秘密和環境變數的資料集 |
Pickle 掃描 | 掃描 pickle 檔案並顯示 PyTorch 權重的經過驗證的匯入 |
ProtectAI | 使用 Guardian 技術阻止包含 pickle、Keras 和其他漏洞的資料集 |

覆蓋範圍和可見性
擁有一個具有強大功能的安全平臺很有價值,但研究的真正影響來自於接觸到正確的受眾。覆蓋範圍和可見性對於共享資料集的研究人員至關重要——它有助於最大化研究影響,實現可復現性,促進協作,並確保有價值的資料能夠造福更廣泛的科學界。
Hugging Face Hub 擁有超過 500 萬活躍的構建者,為研究人員提供了強大的社群參與和可見性工具。以下是您可以期待的:
更好的社群參與
- 每個資料集內建的討論標籤,促進社群參與
- 將組織作為分組和協作多個數據集的中心場所
- 資料集使用和影響的指標
更廣泛的覆蓋範圍
- 接觸廣泛活躍的研究人員、開發者和實踐者社群
- 最佳化 SEO 的 URL,使您的資料集易於發現
- 與模型、資料集和庫的更廣泛生態系統整合
- 您的資料集與相關模型、論文和演示之間的清晰連結
改進的文件
- 可定製的 README 檔案,提供全面的文件
- 支援詳細的資料集描述和適當的學術引用
- 相關研究論文和出版物的連結
Hub 使提問和討論資料集變得容易。
如何在 Hugging Face Hub 上託管我的資料集?
現在您瞭解了在 Hub 上託管資料集的好處,您可能想知道如何開始。以下是一些全面的資源來指導您完成整個過程
如果您想共享大型資料集,以下頁面將非常有用
- 儲存庫限制和建議提供了關於共享大型資料集時需要考慮的一些事項的一般指導。
- 大型上傳的技巧和竅門頁面提供了一些關於如何將大型資料集上傳到 Hub 的指導。
如果您需要進一步幫助將資料集上傳到 Hub,或者想要上傳特別大的資料集,請聯絡datasets@huggingface.co。