資料集檢視器文件
拆分和子集
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
拆分和子集
機器學習資料集通常以*拆分*組織,並且它們也可能具有*子集*(也稱為*配置*)。這些內部結構為構建資料集提供了支架,並決定了資料集應如何拆分和組織。瞭解資料集的結構可以幫助您建立自己的資料集,並知道在模型訓練和評估期間應使用哪個資料子集。
拆分
每個經過處理和清洗的資料集都包含*拆分*,即為特定需求保留的資料的特定部分。最常見的拆分是:
train
:用於訓練模型的資料;此資料暴露給模型validation
:保留用於評估和改進模型超引數的資料;此資料對模型隱藏test
:僅用於評估的資料;此資料對模型和我們自己完全隱藏
validation
和 test
集尤其重要,以確保模型確實在學習,而不是*過擬合*或僅僅記憶資料。
子集
一個*子集*(也稱為*配置*)是比拆分更高級別的內部結構,一個子集包含拆分。你可以將子集視為一個更大資料集中的子資料集。它是一個有用的結構,可以為資料集新增額外的組織層。例如,如果你檢視 多語言 LibriSpeech (MLS) 資料集,你會注意到有八種不同的語言。雖然你可以建立一個包含所有八種語言的資料集,但更整潔的做法可能是為每種語言建立一個子集。這樣,使用者可以立即載入他們感興趣的語言資料集,而無需預處理資料集來過濾特定語言。
子集是靈活的,可以根據你想要的目標來組織資料集。例如,SceneParse150 資料集使用子集按任務組織資料集。一個子集專門用於分割整個影像,而另一個子集用於例項分割。
< > 在 GitHub 上更新