拆分和子集

機器學習資料集通常以*拆分*組織，並且它們也可能具有*子集*（也稱為*配置*）。這些內部結構為構建資料集提供了支架，並決定了資料集應如何拆分和組織。瞭解資料集的結構可以幫助您建立自己的資料集，並知道在模型訓練和評估期間應使用哪個資料子集。

split-configs-server

拆分

每個經過處理和清洗的資料集都包含*拆分*，即為特定需求保留的資料的特定部分。最常見的拆分是：

train：用於訓練模型的資料；此資料暴露給模型
validation：保留用於評估和改進模型超引數的資料；此資料對模型隱藏
test：僅用於評估的資料；此資料對模型和我們自己完全隱藏

validation 和 test 集尤其重要，以確保模型確實在學習，而不是*過擬合*或僅僅記憶資料。

子集

一個*子集*（也稱為*配置*）是比拆分更高級別的內部結構，一個子集包含拆分。你可以將子集視為一個更大資料集中的子資料集。它是一個有用的結構，可以為資料集新增額外的組織層。例如，如果你檢視多語言 LibriSpeech (MLS) 資料集，你會注意到有八種不同的語言。雖然你可以建立一個包含所有八種語言的資料集，但更整潔的做法可能是為每種語言建立一個子集。這樣，使用者可以立即載入他們感興趣的語言資料集，而無需預處理資料集來過濾特定語言。

子集是靈活的，可以根據你想要的目標來組織資料集。例如，SceneParse150 資料集使用子集按任務組織資料集。一個子集專門用於分割整個影像，而另一個子集用於例項分割。

< > 在 GitHub 上更新

資料集檢視器

拆分和子集

拆分

子集