資料集檢視器文件

資料型別

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

資料型別

資料集檢視器支援的資料集採用表格格式,這意味著一個數據點以一行表示,其特徵包含在列中。使用 /first-rows 端點可以預覽資料集的前 100 行以及每個特徵的資訊。在 features 鍵中,您會注意到它返回一個 _type 欄位。此值描述了列的資料型別,它也稱為資料集的 Features

有幾種不同的資料 Features 用於表示不同的資料格式,例如用於語音和影像資料的 AudioImage。瞭解資料集特徵可以更好地理解您正在處理的資料型別以及如何對其進行預處理。

例如,爛番茄 資料集的 /first-rows 端點返回以下內容:

{"dataset": "cornell-movie-review-data/rotten_tomatoes",
 "config": "default",
 "split": "train",
 "features": [{"feature_idx": 0,
   "name": "text",
   "type": {"dtype": "string", 
   "id": null,
   "_type": "Value"}},
  {"feature_idx": 1,
   "name": "label",
   "type": {"num_classes": 2,
    "names": ["neg", "pos"],
    "id": null,
    "_type": "ClassLabel"}}],
  ...
 }

此資料集有兩列:textlabel

  • text 列的型別為 ValueValue 型別用途廣泛,表示標量值,例如字串、整數、日期,甚至時間戳值。

  • label 列的型別為 ClassLabelClassLabel 型別表示資料集中的類數量及其標籤名稱。自然,這意味著您會經常看到 ClassLabel 用於分類資料集。

有關可用資料型別的完整列表,請參閱 Features 文件。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.