資料集檢視器文件
資料型別
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
資料型別
資料集檢視器支援的資料集採用表格格式,這意味著一個數據點以一行表示,其特徵包含在列中。使用 /first-rows
端點可以預覽資料集的前 100 行以及每個特徵的資訊。在 features
鍵中,您會注意到它返回一個 _type
欄位。此值描述了列的資料型別,它也稱為資料集的 Features
。
有幾種不同的資料 Features
用於表示不同的資料格式,例如用於語音和影像資料的 Audio
和 Image
。瞭解資料集特徵可以更好地理解您正在處理的資料型別以及如何對其進行預處理。
例如,爛番茄 資料集的 /first-rows
端點返回以下內容:
{"dataset": "cornell-movie-review-data/rotten_tomatoes",
"config": "default",
"split": "train",
"features": [{"feature_idx": 0,
"name": "text",
"type": {"dtype": "string",
"id": null,
"_type": "Value"}},
{"feature_idx": 1,
"name": "label",
"type": {"num_classes": 2,
"names": ["neg", "pos"],
"id": null,
"_type": "ClassLabel"}}],
...
}
此資料集有兩列:text
和 label
text
列的型別為Value
。Value
型別用途廣泛,表示標量值,例如字串、整數、日期,甚至時間戳值。label
列的型別為ClassLabel
。ClassLabel
型別表示資料集中的類數量及其標籤名稱。自然,這意味著您會經常看到ClassLabel
用於分類資料集。
有關可用資料型別的完整列表,請參閱 Features
文件。