Hub 文件

資料工作室

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

資料工作室

每個資料集頁面都包含一個表格,其中按每頁 100 行的方式排列了資料集內容。您可以使用表格底部的按鈕在頁面之間導航。

檢查資料分佈

在列的頂部,您可以看到表示其資料分佈的圖表。這使您可以快速瞭解您的類別是否平衡、數值資料的範圍和分佈、文字的長度以及列資料中缺失的部分。

按值過濾

如果您點選數值列直方圖的條形,資料集檢視器將過濾資料並僅顯示所選範圍內值的行。同樣,如果您從分類列中選擇一個類別,它將僅顯示所選類別中的行。

在資料集中搜索單詞

您可以透過在表格頂部的搜尋欄中輸入單詞來搜尋資料集中的單詞。搜尋不區分大小寫,並將匹配包含該單詞的任何行。即使值巢狀在字典或列表中,也會在 `string` 列中搜索文字。

在資料集上執行 SQL 查詢

您可以使用 SQL 控制檯在瀏覽器中對資料集執行 SQL 查詢。此功能還利用了我們的自動轉換為 Parquet

有關更多資訊,請參閱我們的 SQL 控制檯指南。

分享特定行

您可以透過單擊特定行,然後複製瀏覽器位址列中的 URL 來共享該行。例如,https://huggingface.co/datasets/nyu-mll/glue/viewer/mrpc/test?p=2&row=241 將開啟 MRPC 資料集、測試拆分和第 241 行的資料工作室。

大規模資料集

資料集檢視器支援大規模資料集,但根據資料格式,它可能只顯示資料集的前 5GB。

  • 對於 Parquet 資料集:資料集檢視器顯示完整資料集,但排序、過濾和搜尋僅在最初的 5GB 上啟用。
  • 對於其他格式(例如 WebDataset 或 JSON Lines)大於 5GB 的資料集:資料集檢視器僅顯示最初的 5GB,並且排序、過濾和搜尋在此最初的 5GB 上啟用。

在這種情況下,會有一條資訊訊息告知您檢視器是部分的。這應該是一個足夠大的樣本,可以準確地代表整個資料集,如果您需要更大的樣本,請告訴我們。

訪問 Parquet 檔案

為了支援資料集檢視器,每個資料集的前 5GB 會自動轉換為 Parquet 格式(除非它已經是 Parquet 資料集)。在資料集檢視器中(例如,參見 GLUE),您可以單擊 “自動轉換為 Parquet” 來訪問 Parquet 檔案。請參閱資料集檢視器文件,瞭解如何使用 Polars、Pandas 或 DuckDB 等庫查詢資料集 Parquet 檔案。

Parquet 是一種面向列的儲存格式,針對查詢和處理大型資料集進行了最佳化。Parquet 是大資料處理和分析的流行選擇,廣泛用於資料處理和機器學習。您可以在文件中瞭解與此格式相關的更多優點。

轉換機器人

當您建立新資料集時,`parquet-converter` 機器人會在將資料集轉換為 Parquet 後通知您。它在倉庫中開啟的討論提供了有關 Parquet 格式的詳細資訊以及指向 Parquet 檔案的連結。

程式設計訪問

您還可以使用 Hub API 以程式設計方式訪問 Parquet 檔案列表;例如,端點 `https://huggingface.co/api/datasets/nyu-mll/glue/parquet` 列出了 `nyu-mll/glue` 資料集的 Parquet 檔案。

我們還有關於 資料集檢視器 API 的特定文件,您可以直接呼叫它。該 API 允許您訪問所有 Hugging Face Hub 資料集的內容、元資料和基本統計資訊,併為資料集檢視器前端提供支援。

資料集預覽

對於最大的資料集,頁面會顯示前 100 行的預覽,而不是功能齊全的檢視器。此限制僅適用於大於 5GB 且非原生 Parquet 格式或未自動轉換為 Parquet 的資料集。

在網頁中嵌入資料集檢視器

您可以使用 iframe 將資料集檢視器嵌入到您自己的網頁中。要使用的 URL 是 `https://huggingface.co/datasets/<namespace>/<dataset-name>/embed/viewer`,其中 `<namespace>` 是資料集的所有者,`<dataset-name>` 是資料集的名稱。您還可以傳遞其他引數,例如子集、拆分、篩選或選定行。

有關更多資訊,請參閱我們的 如何在網頁中嵌入資料集檢視器指南。

配置資料集檢視器

為了使資料集檢視器正常工作,請確保您的資料集採用受支援的格式和結構。您還可以選擇使用 YAML 配置資料集。

對於私有資料集,資料集檢視器對PRO 使用者企業 Hub 組織啟用。

有關更多資訊,請參閱我們的 如何配置資料集檢視器指南。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.