資料集檢視器文件
檢查資料集有效性
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
檢查資料集有效性
在您從 Hub 下載資料集之前,瞭解您感興趣的特定資料集是否可用會很有幫助。資料集檢視器提供了 /is-valid
端點來檢查特定資料集是否能正常工作而沒有錯誤。
如果資料集無法使用 🤗 Datasets 庫載入(例如,因為資料尚未上傳或格式不受支援),API 端點將返回錯誤。
最大的資料集部分受資料集檢視器支援。如果它們是 可流式傳輸的,Datasets Server 可以提取前 100 行,而無需下載整個資料集。這對於預覽大型資料集特別有用,因為下載整個資料集可能需要數小時!請參閱
/is-valid
響應中的 preview
欄位,以檢查資料集是否部分受支援。本指南向您展示如何以程式設計方式檢查資料集有效性,但您可以隨意使用 Postman、RapidAPI 或 ReDoc 進行嘗試。
檢查資料集是否有效
/is-valid
檢查特定資料集是否能正常載入而沒有錯誤。此端點的查詢引數要求您指定資料集的名稱
Python
JavaScript
cURL
import requests
headers = {"Authorization": f"Bearer {API_TOKEN}"}
API_URL = "https://datasets-server.huggingface.co/is-valid?dataset=cornell-movie-review-data/rotten_tomatoes"
def query():
response = requests.get(API_URL, headers=headers)
return response.json()
data = query()
如果資料集有效,響應如下所示
{
"viewer": true,
"preview": true,
"search": true,
"filter": true,
"statistics": true,
}
如果資料集有效但其 /search 不可用,響應如下所示
{
"viewer": true,
"preview": true,
"search": false,
"filter": true,
"statistics": true,
}
如果資料集有效但其 /filter 不可用,響應如下所示
{
"viewer": true,
"preview": true,
"search": true,
"filter": false,
"statistics": true,
}
同樣,如果統計資料不可用
{
"viewer": true,
"preview": true,
"search": true,
"filter": true,
"statistics": false,
}
如果只可獲得資料集的前幾行,則響應如下
{
"viewer": false,
"preview": true,
"search": true,
"filter": true,
"statistics": true,
}
最後,如果資料集根本無效,則響應為
{
"viewer": false,
"preview": false,
"search": false,
"filter": false,
"statistics": false,
}
資料集無效的一些情況是
- 資料集檢視器已停用
- 資料集受限,但未授予訪問許可權:未傳遞令牌或傳遞的令牌未授權
- 資料集是私有的,但所有者不是 PRO 使用者或企業 Hub 組織
- 資料集不包含資料或資料格式不受支援
請記住,如果資料集是受限的,您需要提供您的使用者令牌才能成功提交查詢!
< > 在 GitHub 上更新