在 Hugging Face Hub 上分享您的開放 ML 資料集!

釋出於 2024 年 11 月 12 日
在 GitHub 上更新

如果您正在進行資料密集型研究或機器學習專案,您需要一種可靠的方式來共享和託管您的資料集。像 Common Crawl、ImageNet、Common Voice 等公共資料集對開放的機器學習生態系統至關重要,但它們的託管和共享可能具有挑戰性。

Hugging Face Hub 使資料集的託管和共享變得無縫,受到許多領先研究機構、公司和政府機構的信任,包括 NvidiaGoogleStanfordNASATHUDMBarcelona Supercomputing Center

透過在 Hugging Face Hub 上託管資料集,您可以立即獲得可最大限度地發揮工作影響的功能

慷慨的限制

支援大型資料集

Hub 可以託管 TB 級別的資料集,具有很高的每個檔案和每個儲存庫的限制。如果您有資料要共享,Hugging Face 資料集團隊可以幫助您建議最佳的資料上傳格式,以供社群使用。🤗 Datasets 庫使得上傳和下載檔案,甚至從頭開始建立資料集變得容易。🤗 Datasets 還支援資料集流式傳輸,使得處理大型資料集無需下載整個資料集。這對於計算資源較少的研究人員處理您的資料集,或者選擇大型資料集的一小部分進行測試、開發或原型設計來說,是無價的。

Screenshot of the file size information for a dataset
Hugging Face Hub 可以託管機器學習研究中經常建立的大型資料集。

注意:Xet 團隊目前正在進行後端更新,將每個檔案限制從當前的 50 GB 增加到 500 GB,同時提高儲存和傳輸效率。

資料集檢視器

除了託管資料,Hub 還提供強大的探索工具。藉助資料集檢視器,使用者可以直接在瀏覽器中探索和互動託管在 Hub 上的資料集。這為其他人提供了一種無需先下載即可檢視和探索資料的簡便方法。

Hugging Face 資料集支援多種模態(音訊、影像、影片等)和檔案格式(CSV、JSON、Parquet 等),以及壓縮格式(Gzip、Zip 等)。有關更多詳細資訊,請檢視資料集檔案格式頁面。

Screenshot of the Datasets Viewer
Infinity-Instruct 資料集的資料集檢視器。

資料集檢視器還包含一些功能,使資料集探索更加容易。

全文搜尋

內建的全文搜尋是資料集檢視器最強大的功能之一。資料集中的任何文字列都可以立即進行搜尋。

Arxiver 資料集包含 63.4k 行轉換為 Markdown 格式的 arXiv 研究論文。透過使用全文搜尋,可以輕鬆找到包含特定作者(如 Ilya Sutskever)的論文。

排序

資料集檢視器允許您透過單擊列標題來對資料集進行排序。這使得在資料集中找到最相關的示例變得容易。

下面是 HelpSteer2 資料集中按 `helpfulness` 列降序排序的資料集示例。

第三方庫支援

Hugging Face 很幸運能與領先的開源資料工具進行第三方整合。透過在 Hub 上託管資料集,它使資料集立即相容使用者最熟悉的工具。

以下是 Hugging Face 開箱即用支援的一些庫

描述 PyPi 月下載量 (2024)
Pandas Python 資料分析工具包。 2.58 億
Spark 分散式環境中的即時、大規模資料處理工具。 2900 萬
資料集 🤗 Datasets 是一個用於訪問和共享音訊、計算機視覺和自然語言處理 (NLP) 資料集的庫。 1700 萬
Dask 並行分散式計算庫,可擴充套件現有的 Python 和 PyData 生態系統。 1200 萬
Polars 基於 OLAP 查詢引擎的 DataFrame 庫。 850 萬
DuckDB 記憶體中 SQL OLAP 資料庫管理系統。 600 萬
WebDataset 用於大型資料集 I/O 流水線的庫。 87.1 萬
Argilla 重視高質量資料的 AI 工程師和領域專家協作工具。 40 萬

這些庫中的大多數都允許您用一行程式碼載入或流式傳輸資料集。

以下是 Pandas、Polars 和 DuckDB 的一些示例

# Pandas example
import pandas as pd
df = pd.read_parquet("hf://datasets/neuralwork/arxiver/data/train.parquet")

# Polars example 
import polars as pl
df = pl.read_parquet("hf://datasets/neuralwork/arxiver/data/train.parquet")

# DuckDB example - SQL queries
import duckdb
duckdb.sql("SELECT * FROM 'hf://datasets/neuralwork/arxiver/data/train.parquet' LIMIT 10")

您可以在資料集文件中找到有關整合庫的更多資訊。除了上面列出的庫,還有許多社群支援的工具支援 Hugging Face Hub,例如 LilacSpotlight

SQL 控制檯

SQL 控制檯提供了一個完全在瀏覽器中執行的互動式 SQL 編輯器,無需任何設定即可實現即時資料探索。主要功能包括:

  • 一鍵式:一鍵開啟 SQL 控制檯查詢資料集
  • 可共享和可嵌入的結果:共享和嵌入有趣的查詢結果
  • 完整的 DuckDB 語法:使用完整的 SQL 語法以及用於正則表示式、列表、JSON、嵌入等的內建函式

在每個公共資料集上,您都應該看到一個新的 SQL 控制檯 徽章。只需單擊一下,即可開啟 SQL 控制檯來查詢該資料集。

查詢 Magpie-Ultra 資料集,以獲取高質量的推理指令。

安全

雖然資料集的可訪問性很重要,但保護敏感資料也同樣關鍵。Hugging Face Hub 提供強大的安全功能,幫助您在與合適受眾共享資料時保持對資料的控制。

訪問控制

Hugging Face Hub 支援針對誰有權訪問資料集的獨特訪問控制選項。

  • 公共:任何人都可以訪問資料集。
  • 私人:只有您和您組織中的人員可以訪問資料集。
  • 受限:透過兩種選項控制資料集的訪問許可權
    • 自動批准:使用者必須提供所需資訊(如姓名和電子郵件)並同意條款才能獲得訪問許可權
    • 手動批准:您稽核並手動批准/拒絕每個訪問請求

有關受限資料集的更多詳細資訊,請參閱受限資料集文件。對於更細粒度的控制,企業計劃功能允許組織建立資源安全組、使用SSO等。

內建安全掃描

除了訪問控制,Hugging Face Hub 還提供多種安全掃描器

特性 描述
惡意軟體掃描 每次提交和訪問時掃描檔案是否存在惡意軟體和可疑內容
秘密掃描 阻止包含硬編碼秘密和環境變數的資料集
Pickle 掃描 掃描 pickle 檔案並顯示 PyTorch 權重的經過驗證的匯入
ProtectAI 使用 Guardian 技術阻止包含 pickle、Keras 和其他漏洞的資料集
Security scanner status banner showing various security checks
要了解有關這些掃描器的更多資訊,請參閱安全掃描器文件

覆蓋範圍和可見性

擁有一個具有強大功能的安全平臺很有價值,但研究的真正影響來自於接觸到正確的受眾。覆蓋範圍和可見性對於共享資料集的研究人員至關重要——它有助於最大化研究影響,實現可復現性,促進協作,並確保有價值的資料能夠造福更廣泛的科學界。

Hugging Face Hub 擁有超過 500 萬活躍的構建者,為研究人員提供了強大的社群參與和可見性工具。以下是您可以期待的:

更好的社群參與

  • 每個資料集內建的討論標籤,促進社群參與
  • 將組織作為分組和協作多個數據集的中心場所
  • 資料集使用和影響的指標

更廣泛的覆蓋範圍

  • 接觸廣泛活躍的研究人員、開發者和實踐者社群
  • 最佳化 SEO 的 URL,使您的資料集易於發現
  • 與模型、資料集和庫的更廣泛生態系統整合
  • 您的資料集與相關模型、論文和演示之間的清晰連結

改進的文件

  • 可定製的 README 檔案,提供全面的文件
  • 支援詳細的資料集描述和適當的學術引用
  • 相關研究論文和出版物的連結

Screenshot of a discussion for a dataset on the Hub.
Hub 使提問和討論資料集變得容易。

如何在 Hugging Face Hub 上託管我的資料集?

現在您瞭解了在 Hub 上託管資料集的好處,您可能想知道如何開始。以下是一些全面的資源來指導您完成整個過程

如果您想共享大型資料集,以下頁面將非常有用

如果您需要進一步幫助將資料集上傳到 Hub,或者想要上傳特別大的資料集,請聯絡datasets@huggingface.co

社群

如果能有一個小節(展示資料集連結)關於如何將資料集相互連結以及連結到資料集卡片中的模型,那會很好。

你好 @lhoestq 和 Hugging Face 團隊,
抱歉評論有點長,但希望它值得一讀。🙏🏿。

感謝您這份關於在 Hub 上共享資料集的全面指南!您強調在保證安全和可見性的同時,使資料集易於訪問的觀點,與我們最近的工作產生了深刻共鳴。
我們最近在 Hugging Face (https://huggingface.co/datasets/CraneAILabs/UCCB) 上釋出了烏干達文化語境基準(UCCB),這代表了非洲人工智慧評估的一個重要里程碑。作為第一個全面測試人工智慧對非洲文化語境理解的基準,UCCB 填補了一個關鍵空白,即模型由於主要反映西方經驗的訓練資料而經常失敗。

您文章中關於覆蓋範圍和社群參與的觀點尤其引起了我們的共鳴。非洲語言的網際網路內容僅佔 0.02%,非洲對全球人工智慧訓練資料的貢獻不足 1%,因此像 UCCB 這樣的倡議對於構建更具包容性的人工智慧系統至關重要。該資料集包含 1,039 個經過專家驗證的問題,涵蓋 24 個文化領域,從傳統醫學到現代俚語,測試人工智慧是否真正理解非洲語境,而不僅僅是翻譯。

我們相信分享 UCCB 及其方法背後的故事可以激勵非洲和其他代表性不足地區類似的倡議。儘管我們曾嘗試加入“部落格探索者”組織,
分享我們的旅程,但我們知道訪問是受限的。然而,我們想知道是否有機會與 Hugging Face 專家合作撰寫一篇部落格文章,重點介紹

非洲研究人員如何利用 Hub 的基礎設施解決區域人工智慧挑戰
文化敏感基準在全球人工智慧生態系統中的重要性
為其他尋求建立類似評估框架的地區提供實用見解
社群協作在構建真正代表多樣化視角的資料集中的作用

正如您在文章中指出的那樣,“研究的真正影響來自於接觸到正確的受眾。”我們相信,在 Hugging Face 平臺上展示非洲人工智慧創新可以激勵更多區域貢獻,並展示 Hub 如何使全球研究人員能夠塑造人工智慧發展,而不僅僅是消費它。

您或團隊成員是否願意探討一篇協作式部落格文章?即使是關於如何以符合 Hugging Face 社群價值觀的方式獨立釋出我們的故事的指導也將是無價的。我們致力於開放科學和社群參與的相同原則,這些原則使 Hub 變得特別。(我們已經嘗試聯絡 Hugging Face 團隊,但幾個月來沒有人給我們任何時間🥲)。

感謝您構建了賦能全球人工智慧聲音的基礎設施。期待任何機會分享非洲視角如何為更公平的人工智慧發展做出貢獻。

此致,
Kato Steven Mubiru & Bronson Bakunga
@katostevenmubiru
附言:您強調的資料集檢視器和 SQL 控制檯功能,對於使計算資源有限的研究人員能夠訪問 UCCB 至關重要——這正是包容性 AI 發展所需要的民主化!

註冊登入發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.