資料集檢視器文件

檢查資料集有效性

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

檢查資料集有效性

在您從 Hub 下載資料集之前,瞭解您感興趣的特定資料集是否可用會很有幫助。資料集檢視器提供了 /is-valid 端點來檢查特定資料集是否能正常工作而沒有錯誤。

如果資料集無法使用 🤗 Datasets 庫載入(例如,因為資料尚未上傳或格式不受支援),API 端點將返回錯誤。

最大的資料集部分受資料集檢視器支援。如果它們是 可流式傳輸的,Datasets Server 可以提取前 100 行,而無需下載整個資料集。這對於預覽大型資料集特別有用,因為下載整個資料集可能需要數小時!請參閱 /is-valid 響應中的 preview 欄位,以檢查資料集是否部分受支援。

本指南向您展示如何以程式設計方式檢查資料集有效性,但您可以隨意使用 PostmanRapidAPIReDoc 進行嘗試。

檢查資料集是否有效

/is-valid 檢查特定資料集是否能正常載入而沒有錯誤。此端點的查詢引數要求您指定資料集的名稱

Python
JavaScript
cURL
import requests
headers = {"Authorization": f"Bearer {API_TOKEN}"}
API_URL = "https://datasets-server.huggingface.co/is-valid?dataset=cornell-movie-review-data/rotten_tomatoes"
def query():
    response = requests.get(API_URL, headers=headers)
    return response.json()
data = query()

如果資料集有效,響應如下所示

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": true,
}

如果資料集有效但其 /search 不可用,響應如下所示

{
  "viewer": true,
  "preview": true,
  "search": false,
  "filter": true,
  "statistics": true,
}

如果資料集有效但其 /filter 不可用,響應如下所示

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": false,
  "statistics": true,
}

同樣,如果統計資料不可用

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": false,
}

如果只可獲得資料集的前幾行,則響應如下

{
  "viewer": false,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": true,
}

最後,如果資料集根本無效,則響應為

{
  "viewer": false,
  "preview": false,
  "search": false,
  "filter": false,
  "statistics": false,
}

資料集無效的一些情況是

  • 資料集檢視器已停用
  • 資料集受限,但未授予訪問許可權:未傳遞令牌或傳遞的令牌未授權
  • 資料集是私有的,但所有者不是 PRO 使用者或企業 Hub 組織
  • 資料集不包含資料或資料格式不受支援
請記住,如果資料集是受限的,您需要提供您的使用者令牌才能成功提交查詢!
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.