資料集檢視器文件

拆分和子集

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

拆分和子集

機器學習資料集通常以*拆分*組織,並且它們也可能具有*子集*(也稱為*配置*)。這些內部結構為構建資料集提供了支架,並決定了資料集應如何拆分和組織。瞭解資料集的結構可以幫助您建立自己的資料集,並知道在模型訓練和評估期間應使用哪個資料子集。

split-configs-server

拆分

每個經過處理和清洗的資料集都包含*拆分*,即為特定需求保留的資料的特定部分。最常見的拆分是:

  • train:用於訓練模型的資料;此資料暴露給模型
  • validation:保留用於評估和改進模型超引數的資料;此資料對模型隱藏
  • test:僅用於評估的資料;此資料對模型和我們自己完全隱藏

validationtest 集尤其重要,以確保模型確實在學習,而不是*過擬合*或僅僅記憶資料。

子集

一個*子集*(也稱為*配置*)是比拆分更高級別的內部結構,一個子集包含拆分。你可以將子集視為一個更大資料集中的子資料集。它是一個有用的結構,可以為資料集新增額外的組織層。例如,如果你檢視 多語言 LibriSpeech (MLS) 資料集,你會注意到有八種不同的語言。雖然你可以建立一個包含所有八種語言的資料集,但更整潔的做法可能是為每種語言建立一個子集。這樣,使用者可以立即載入他們感興趣的語言資料集,而無需預處理資料集來過濾特定語言。

子集是靈活的,可以根據你想要的目標來組織資料集。例如,SceneParse150 資料集使用子集按任務組織資料集。一個子集專門用於分割整個影像,而另一個子集用於例項分割。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.