資料檔案配置

資料集倉庫的結構沒有限制。

但是，如果您希望資料集檢視器顯示某些資料檔案，或者將資料集分為訓練/驗證/測試拆分，則需要相應地構建資料集。通常，只需根據拆分名稱命名資料檔案即可，例如 `train.csv` 和 `test.csv`。

什麼是拆分和子集？

機器學習資料集通常有拆分，也可能有子集。資料集通常由在模型訓練和評估的不同階段使用的**拆分**（例如 `train` 和 `test`）組成。**子集**（也稱為**配置**）是較大資料集中包含的子資料集。子集在多語言語音資料集中特別常見，其中每種語言可能都有一個不同的子集。如果您有興趣瞭解有關拆分和子集的更多資訊，請查閱拆分和子集指南！

split-configs-server

自動拆分檢測

拆分是根據檔案和目錄名稱自動檢測的。例如，這是一個包含 `train`、`test` 和 `validation` 拆分的資料集。

my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv

要透過根據拆分名稱命名資料檔案或目錄來構建資料集，請參閱檔名和拆分文件以及示例資料集的配套集合。

手動拆分和子集配置

您可以使用 YAML 選擇要在資料集檢視器中顯示的資料檔案。如果您想手動指定哪個檔案屬於哪個拆分，這會很有用。

您還可以為資料集定義多個子集，並傳遞資料集構建引數（例如，CSV 檔案要使用的分隔符）。

這是一個配置示例，定義了一個名為“benchmark”的子集，其中包含一個 `test` 拆分。

configs:
- config_name: benchmark
  data_files:
  - split: test
    path: benchmark.csv

有關更多資訊，請參閱手動配置文件。另請參閱示例資料集。

支援的檔案格式

請參閱檔案格式文件頁面以查詢支援的格式列表和資料集建議。如果您的資料集使用 CSV 或 TSV 檔案，您可以在示例資料集中找到更多資訊。

影像、音訊和影片資料集

對於影像/音訊/影片分類資料集，您還可以使用目錄來命名影像/音訊/影片類別。如果您的影像/音訊/影片檔案有元資料（例如標題、邊界框、轉錄等），您可以將元資料檔案放在它們旁邊。

我們提供兩個指南供您參考

< > 在 GitHub 上更新