宣佈新的資料集搜尋功能

釋出日期:2024年7月8日
在 GitHub 上更新

AI和ML社群已在 Hugging Face資料集中心 上共享了超過18萬個公共資料集。研究人員和工程師正在使用這些資料集執行各種任務,從訓練LLM與使用者聊天,到評估自動語音識別或計算機視覺系統。資料集的可發現性和視覺化是讓AI構建者找到、探索和轉換資料集以適應其用例的關鍵挑戰。

在Hugging Face,我們將資料集中心建設成為社群協作開放資料集的場所。因此,我們構建了資料集搜尋和資料集檢視器等工具,以及豐富的開源工具生態系統。今天,我們宣佈四項新功能,這些功能將把中心的資料集搜尋提升到一個新的水平。

按模態搜尋

資料集的模態對應於資料集內的資料型別。例如,Hugging Face上最常見的資料型別是文字、影像、音訊和表格資料。

我們釋出了一組篩選器,允許您根據此列表中的一個或多個模態篩選資料集

  • 文字
  • 影像
  • 音訊
  • 表格
  • 時間序列
  • 3D
  • 影片
  • 地理空間

例如,可以查詢同時包含文字和影像資料的資料集

search by modality example

每個資料集的模態是根據檔案內容和副檔名自動檢測的。

按大小搜尋

我們最近在介面中釋出了一項新功能,用於顯示每個資料集的行數

number of rows of each dataset

在此之後,現在可以透過指定最小和最大行數來按行數搜尋資料集。這將允許您查詢從小尺寸到最大尺寸的資料集(例如,用於預訓練LLM的資料集)。

有關行數的資訊適用於所有支援格式的資料集。即使對於元資料中未包含行數的最大資料集,總行數也會根據前5GB的內容準確估算。

例如,如果您正在查詢Hugging Face上行數最多的資料集,您可以查詢超過10B (1010) 行的資料集

biggest datasets

按格式搜尋

相同的資料集可以儲存在許多不同的格式中。例如,文字資料集通常採用Parquet或JSON Lines格式,但也可以是文字檔案;影像資料集通常是單個影像目錄,但也可以是WebDataset格式(一種基於TAR歸檔的格式)。

每種格式都有其優缺點。例如,Parquet提供巢狀資料支援(與CSV不同)、高效的篩選/分析和良好的壓縮比,但訪問特定行需要解碼整個行組。另一個例子是WebDataset,它提供最高的資料流傳輸速度,但缺少一些元資料,例如每檔案的行數,這通常是在多節點訓練設定中有效分發資料所必需的。

因此,資料集格式表明了哪些用例是首選的,以及您是否需要重新格式化資料以滿足您的需求。

您可以在這裡看到WebDataset格式的資料集

webdatasets

按庫搜尋

有許多優秀的庫和工具可以載入資料集併為訓練做準備,例如Pandas、Dask或🤗 Datasets庫。該中心允許您使用自己喜歡的工具,並篩選與任何庫相容的資料集,例如,您可以查詢與Pandas相容的資料集

pandas compatible datasets

資料集相容性基於資料集格式和大小(例如,Dask可以載入大型JSON Lines資料集,而Pandas需要將整個資料集載入到記憶體中)。除此之外,我們還提供了程式碼片段,以便您在喜歡的工具中載入任何資料集

load fineweb-edu in dask

如果您希望您的庫出現在支援的庫列表中,請隨時在huggingface.js上發起討論!

組合篩選器

這四種新的資料集搜尋工具可以與現有篩選器(如語言、任務和許可證)結合使用。透過將這些篩選器與文字搜尋欄結合使用,您可以查詢所需特定資料集

search for a webdataset of images of pdf

社群

註冊登入 以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.