Hub 文件
資料檔案配置
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
資料檔案配置
資料集倉庫的結構沒有限制。
但是,如果您希望資料集檢視器顯示某些資料檔案,或者將資料集分為訓練/驗證/測試拆分,則需要相應地構建資料集。通常,只需根據拆分名稱命名資料檔案即可,例如 `train.csv` 和 `test.csv`。
什麼是拆分和子集?
機器學習資料集通常有拆分,也可能有子集。資料集通常由在模型訓練和評估的不同階段使用的**拆分**(例如 `train` 和 `test`)組成。**子集**(也稱為**配置**)是較大資料集中包含的子資料集。子集在多語言語音資料集中特別常見,其中每種語言可能都有一個不同的子集。如果您有興趣瞭解有關拆分和子集的更多資訊,請查閱拆分和子集指南!
自動拆分檢測
拆分是根據檔案和目錄名稱自動檢測的。例如,這是一個包含 `train`、`test` 和 `validation` 拆分的資料集。
my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv
要透過根據拆分名稱命名資料檔案或目錄來構建資料集,請參閱檔名和拆分文件以及示例資料集的配套集合。
手動拆分和子集配置
您可以使用 YAML 選擇要在資料集檢視器中顯示的資料檔案。如果您想手動指定哪個檔案屬於哪個拆分,這會很有用。
您還可以為資料集定義多個子集,並傳遞資料集構建引數(例如,CSV 檔案要使用的分隔符)。
這是一個配置示例,定義了一個名為“benchmark”的子集,其中包含一個 `test` 拆分。
configs:
- config_name: benchmark
data_files:
- split: test
path: benchmark.csv
支援的檔案格式
請參閱檔案格式文件頁面以查詢支援的格式列表和資料集建議。如果您的資料集使用 CSV 或 TSV 檔案,您可以在示例資料集中找到更多資訊。
影像、音訊和影片資料集
對於影像/音訊/影片分類資料集,您還可以使用目錄來命名影像/音訊/影片類別。如果您的影像/音訊/影片檔案有元資料(例如標題、邊界框、轉錄等),您可以將元資料檔案放在它們旁邊。
我們提供兩個指南供您參考
< > 在 GitHub 上更新