資料集檢視器文件

🤗 資料集檢視器

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

🤗 資料集檢視器

資料集頁面包含一個表格,其中包含資料集內容,按每頁 100 行排列。您可以使用表格底部的按鈕在頁面之間導航、進行篩選、搜尋、檢視基本統計資訊等等。

OpenBookQA 資料集 的資料集檢視器

文件目錄

這些文件頁面主要關注**資料集檢視器的後端**(程式碼位於 https://github.com/huggingface/dataset-viewer),它透過 API 為 Hub 上的所有資料集提供帶有預計算資料的表格。如果您想為您的應用程式使用 API 或瞭解我們如何預處理資料集,可以瀏覽這些部分。

否則,如果您想了解如何透過 Hub 的基於 Web 的介面建立資料集,**配置資料集檢視器** 以處理資料、影像 或音訊,或修復錯誤,您可能更喜歡閱讀 資料集 Hub 文件頁面。還可以檢視 示例資料集 集合:拆分配置子集配置CSV 資料檔案影像資料集

資料集檢視器後端

資料集檢視器後端提供了一個 API,用於視覺化和探索儲存在 Hugging Face Hub 上的所有型別資料集 - 計算機視覺、語音、文字和表格。

資料集檢視器後端的主要功能是將所有 Hub 資料集 自動轉換為 Parquet 格式。請閱讀 Parquet 部分 瞭解更多資訊。

隨著資料集大小和資料型別豐富度的增加,預處理這些資料集的成本(儲存和計算)可能具有挑戰性且耗時。為了幫助使用者訪問這些現代資料集,資料集檢視器在後臺執行一個伺服器,提前生成 API 響應並將其儲存在資料庫中,以便在您透過 API 進行查詢時立即返回。

讓資料集檢視器處理繁重的工作,這樣您就可以對 Hugging Face 上超過 **100,000 個數據集**中的任何一個使用簡單的 **REST API** 來實現:

  • 列出**資料集拆分、列名和資料型別**
  • 獲取**資料集大小**(行數或位元組數)
  • 下載並檢視資料集**任意索引處的行**
  • 在資料集中**搜尋**單詞
  • 根據查詢字串**過濾**行
  • 獲取有關資料的**有見地的統計資訊**
  • 以 **Parquet 檔案**形式訪問資料集,以便在您喜歡的**處理或分析框架**中使用

立即加入 論壇Discord 上不斷壯大的社群,如果您對最新更新感興趣,請給 資料集檢視器倉庫 加星!

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.