手動配置

本指南將向您展示如何為資料集倉庫配置自定義結構。配套的示例資料集集合展示了文件的每個部分。

具有受支援的結構和檔案格式的資料集在其 Hub 上的資料集頁面上會自動擁有一個數據集檢視器。您可以使用 YAML 定義檢視器使用的拆分、子集和構建器引數。

還可以為同一資料集定義多個子集（也稱為“配置”）（例如，如果資料集有各種獨立檔案）。

拆分

如果您有多個檔案並希望定義哪個檔案屬於哪個拆分，您可以使用 README.md 頂部的 YAML。

例如，給定這樣的倉庫

my_dataset_repository/
├── README.md
├── data.csv
└── holdout.csv

您可以透過在 README.md 頂部的 YAML 塊中新增 configs 欄位來為您的拆分定義一個子集

---
configs:
- config_name: default
  data_files:
  - split: train
    path: "data.csv"
  - split: test
    path: "holdout.csv"
---

您可以使用路徑列表為每個拆分選擇多個檔案

my_dataset_repository/
├── README.md
├── data/
│   ├── abc.csv
│   └── def.csv
└── holdout/
    └── ghi.csv

---
configs:
- config_name: default
  data_files:
  - split: train
    path:
    - "data/abc.csv"
    - "data/def.csv"
  - split: test
    path: "holdout/ghi.csv"
---

或者您可以使用 glob 模式自動列出您需要的所有檔案

---
configs:
- config_name: default
  data_files:
  - split: train
    path: "data/*.csv"
  - split: test
    path: "holdout/*.csv"
---

請注意，即使您只有一個子集，也需要 config_name 欄位。

多個子集

您的資料集可能包含多個您希望能夠單獨使用的資料子集。例如，每個子集在 Hugging Face Hub 的資料集檢視器中都有自己的下拉列表。

在這種情況下，您可以在 YAML 的 configs 欄位中定義一個子集列表

my_dataset_repository/
├── README.md
├── main_data.csv
└── additional_data.csv

---
configs:
- config_name: main_data
  data_files: "main_data.csv"
- config_name: additional_data
  data_files: "additional_data.csv"
---

請注意，檢視器中顯示的子集順序是預設子集在前，然後按字母順序排列。

您可以使用 default: true 設定預設子集

- config_name: main_data
  data_files: "main_data.csv"
  default: true

這對於設定資料集檢視器首先顯示哪個子集以及資料庫預設載入哪個子集很有用。

構建器引數

除了 data_files，其他特定於構建器的引數也可以透過 YAML 傳遞，從而在載入資料時提供更大的靈活性，而無需任何自定義程式碼。例如，定義在哪個子集中使用哪個分隔符來載入您的 csv 檔案

---
configs:
- config_name: tab
  data_files: "main_data.csv"
  sep: "\t"
- config_name: comma
  data_files: "additional_data.csv"
  sep: ","
---

請參閱特定構建器的文件以檢視它們有哪些引數。

< > 在 GitHub 上更新