資料集檢視器文件

列出拆分和子集

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

列出拆分和子集

資料集通常有拆分,也可能有子集。*拆分*是資料集的一個子集,如`train`和`test`,它們用於模型訓練和評估的不同階段。*子集*(也稱為*配置*)是包含在更大資料集中的子資料集。子集在多語言語音資料集中尤為常見,其中每種語言可能有一個不同的子集。如果您有興趣瞭解更多關於拆分和子集的資訊,請檢視“拆分和子集”概念指南

split-configs-server

本指南將向您展示如何使用資料集檢視器的/splits端點以程式設計方式檢索資料集的拆分和子集。您也可以嘗試使用PostmanRapidAPIReDoc

/splits端點接受資料集名稱作為其查詢引數

Python
JavaScript
cURL
import requests
headers = {"Authorization": f"Bearer {API_TOKEN}"}
API_URL = "https://datasets-server.huggingface.co/splits?dataset=ibm/duorc"
def query():
    response = requests.get(API_URL, headers=headers)
    return response.json()
data = query()

端點響應是一個 JSON,其中包含資料集的拆分和子集列表。例如,ibm/duorc資料集有六個拆分和兩個子集

{
  "splits": [
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "train" },
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "validation" },
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "test" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "train" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "validation" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "test" }
  ],
  "pending": [],
  "failed": []
}
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.