社群計算機視覺課程文件
合成數據集
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
合成數據集
簡介
歡迎來到計算機視覺中合成數據集的迷人世界!隨著我們從經典的無監督方法過渡到先進的深度學習技術,對海量多樣化資料集的需求呈指數級增長。合成數據集已成為訓練最先進模型的關鍵資源,提供了現實世界中往往不切實際或無法收集的大量資料。在本節中,我們將探討一些最具影響力的合成數據集、它們的應用以及它們如何塑造計算機視覺的未來。
低階計算機視覺問題
光流和運動分析
光流和運動分析在理解影像動態方面至關重要。以下是一些對該領域取得進展做出重大貢獻的資料集:
| 資料集名稱 | 年份 | 描述 | 論文 | 其他連結 |
|---|---|---|---|---|
| Middlebury | 2021年(最新發布) | Middlebury立體資料集包含高解析度立體序列,具有複雜的幾何形狀和畫素級精確的真實視差資料。真實視差是使用結構光技術獲得的,無需校準光投影儀。 | 光流資料庫和評估方法(撰寫時引用3192次) | Papers with Code - 網站 |
| Playing for Benchmarks | 2017 | 超過25萬幀高解析度影片,所有都標註了高階任務(如光流估計和視覺里程計)的真實資料,也標註了低階任務的真實資料。 | Playing for benchmarks | 網站 |
| MPI-Sintel | 2012 | 用於光流的合成數據集。MPI-Sintel的主要特點是它包含具有不同渲染設定、不同質量和複雜度的相同場景;這種方法可以更深入地瞭解不同的光流演算法在何處失效。(論文引用) | 用於光流評估的自然開源電影(撰寫時引用551次) | 網站 |
立體影像匹配
立體影像匹配涉及識別同一場景不同影像中的對應元素。以下資料集在該領域發揮了重要作用:
| 名稱 | 年份 | 描述 | 論文 | 其他連結 |
|---|---|---|---|---|
| Flying Chairs | 2015 | 2.2萬對帶真實光流的幀 | 使用卷積網路學習光流。 | |
| Flying Chairs 3D | 2015 | 2.2萬張立體幀 | 用於訓練卷積網路進行視差、光流和場景流估計的大型資料集。 | |
| Driving | 2015 | 4392張立體幀 | 用於訓練卷積網路進行視差、光流和場景流估計的大型資料集。 | |
| Monkaa | 2015 | 8591張立體幀 | 用於訓練卷積網路進行視差、光流和場景流估計的大型資料集。 | |
| Middlebury 2014 | 2014 | 33個高解析度立體資料集 | 具有亞畫素級真實度的高解析度立體資料集 | |
| Tsukuba Stereo | 2012 | 該資料集包含1800對立體影像,並附帶真實視差圖、遮擋圖和不連續圖。 | 邁向模擬驅動的立體視覺系統 | 專案 |
高階計算機視覺問題
自動駕駛中的語義分割
語義分割對於自動駕駛車輛安全地解釋和導航其周圍環境至關重要。這些資料集為實現此目的提供了豐富、帶註釋的資料:
| 名稱 | 年份 | 描述 | 論文 | 其他連結 | |
|---|---|---|---|---|---|
| Virtual KITTI 2 | 2020 | 虛擬世界作為多目標跟蹤分析的代理 | Virtual KITTI 2 | 網站 | |
| ApolloScape | 2019 | 與現有來自真實場景的公共資料集(例如 KITTI [2] 或 Cityscapes [3])相比,ApolloScape 包含更大更豐富的標註,包括每個站點的整體語義密集點雲、立體影像、畫素級語義標註、車道線標註、例項分割、3D 汽車例項、來自多個站點、城市和不同時間段的各種駕駛影片的每幀高精度位置。 | ApolloScape 自動駕駛開放資料集及其應用 | 網站 | |
| Driving in the Matrix | 2017 | “Driving in the Matrix”的核心思想是使用模擬引擎生成的照片級真實計算機影像來快速生成帶註釋的資料。 | Driving in the Matrix: 虛擬世界能否取代人工標註以完成真實世界任務? | GitHub | |
| CARLA | 2017 | CARLA (CAR Learning to Act) 是一個用於城市駕駛的開放模擬器,作為虛幻引擎4的開源層開發。在技術上,它與虛幻引擎4上的一個開源層類似,提供RGB攝像機(位置可自定義)形式的感測器、真實深度圖、具有12個為駕駛設計的語義類別(道路、車道標記、交通標誌、人行道等)的真實語義分割圖、環境中動態物體的邊界框,以及代理自身(車輛位置和方向)的測量。 | CARLA:一個開放的城市駕駛模擬器 | 網站 | |
| Synthia | 2016 | 用於城市場景語義分割的大量合成影像集合。SYNTHIA包含從虛擬城市渲染的光真實幀集合,並附帶13個類別的精確畫素級語義標註:雜項、天空、建築、道路、人行道、柵欄、植被、杆、汽車、標誌、行人、騎車人、車道標記。 | SYNTHIA資料集:用於城市場景語義分割的大量合成影像集合 | 網站 | |
| GTA5 | 2016 | GTA5資料集包含24966張帶畫素級語義標註的合成影像。這些影像是使用開放世界影片遊戲Grand Theft Auto 5渲染的,全部來自美國風格虛擬城市街道的汽車視角。19個語義類別與Cityscapes資料集的類別相容。 | Playing for Data: 從電腦遊戲中獲取真實資料 | BitBucket | |
| ProcSy | 一個用於語義分割的合成數據集,以真實城市環境為模型,並具有一系列可變影響因素,如天氣和光照。 | ProcSy:針對語義分割網路影響因素研究的程式化合成資料集生成 | 網站 |
室內模擬與導航
由於室內環境的複雜性,室內導航可能具有挑戰性。這些資料集有助於開發能夠進行室內模擬和導航的系統:
| 名稱 | 年份 | 描述 | 論文 | 其他連結 |
|---|---|---|---|---|
| Habitat | 2023 | 一個具身AI模擬平臺,用於研究家庭環境中的協作人機互動任務。 | HABITAT 3.0: 人類、化身與機器人的共同棲息地 | 網站 |
| Minos | 2017 | 多模態室內模擬器 | MINOS:用於複雜環境導航的多模態室內模擬器 | GitHub |
| House3D | 2017年(2021年已存檔) | 一個豐富逼真的3D環境 | 利用逼真且豐富的3D環境構建通用代理 | GitHub |
人體動作識別與模擬
識別和模擬人類動作是一項複雜的任務,這些資料集有助於解決:
| 名稱 | 年份 | 描述 | 論文 | 其他連結 |
|---|---|---|---|---|
| PHAV | 2017 | 程式化生成的人體動作識別影片的合成數據集。 | 影片的程式化生成以訓練深度動作識別網路 | 網站 |
| Surreal | 2017 | (更改描述 - 這是用於人體深度估計和人體部位分割)大規模資料集,包含從人體運動捕捉資料3D序列渲染的合成但逼真的人物影像。我們生成了超過600萬幀影像,以及真實姿態、深度圖和分割掩碼。我們展示了在我們的合成數據集上訓練的CNNs能夠對真實RGB影像進行準確的人體深度估計和人體部位分割。 | 從合成人類中學習 | GitHub |
人臉識別
人臉識別技術在安全、使用者識別等領域有廣泛應用。以下是推動該領域創新的資料集:
| 名稱 | 年份 | 描述 | 論文 | 其他連結 |
|---|---|---|---|---|
| FaceSynthetics | 2021 | Face Synthetics資料集是包含真實標籤的多樣化合成人臉影像集合。 | 虛假到底:僅使用合成數據進行野外人臉分析 | 網站 - GitHub |
| FFHQ | 2018 | 由70,000張1024x1024解析度的高質量PNG影像組成,包含年齡、種族和影像背景的顯著變化。 | 一種基於風格的生成器架構,用於生成對抗網路 | GitHub |
從單幅影像進行三維形狀建模
從單幅影像建立3D模型是一個具有挑戰性但令人興奮的領域。這些資料集處於3D形狀建模研究的前沿:
| 名稱 | 年份 | 描述 | 論文 |
|---|---|---|---|
| Pix3D | 2018 | 一個大規模的基準測試資料集,包含多樣化的影像-形狀對,具有畫素級的2D-3D對齊。Pix3D在形狀相關任務中具有廣泛應用,包括重建、檢索和視點估計。 | Pix3D:用於單影像3D形狀建模的資料集和方法 |
多樣化應用
以下資料集要麼專為特定應用定製,要麼涵蓋多個應用:
| 資料集名稱 | 釋出年份 | 描述 | 論文 | 外部連結 | 應用 |
|---|---|---|---|---|---|
| CIFAKE | 2023 | CIFAKE是一個包含60,000張合成生成影像和60,000張真實影像(來自CIFAR-10)的資料集。 | CIFAKE:AI生成合成影像的影像分類和可解釋性識別 | Kaggle | 真實-虛假影像分類 |
| ABO | 2022 | ABO是一個大型資料集,專為材料預測和多檢視檢索實驗而設計。該資料集包含7,953個3D物件的每個30個視點的Blender渲染,以及每個渲染的相機內參和外參。 | ABO:真實世界3D物體理解的資料集和基準 | 網站 | 材料預測;多檢視檢索;3D物體理解;3D形狀重建; |
| NTIRE 2021 HDR | 2021 | 該資料集包含大約1500個訓練樣本,60個驗證樣本和201個測試樣本。資料集中的每個樣本又由三張輸入LDR影像(即短曝光、中曝光和長曝光)和一張與中心中曝光幀對齊的相關真實HDR影像組成。 | NTIRE 2021 高動態範圍成像挑戰:資料集、方法和結果 | Papers with Code | 影像超解析度 |
| YCB-Video | 2017 | 一個用於6D物體姿態估計的大型影片資料集。它提供了從92個影片(包含133,827幀)中觀察到的YCB資料集中21個物體的精確6D姿態。 | [PoseCNN:用於雜亂場景中6D物體姿態估計的卷積神經網路](PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes) | 網站 | 6D姿態估計 |
| Playing for benchmarks | 2017 | 超過25萬幀高解析度影片,均已標註真實資料。 | Playing for benchmarks | 網站 | 語義例項分割;目標檢測與跟蹤;目標級三維場景佈局; |
| 4D光場資料集 | 2016 | 24個合成、密集取樣的4D光場,具有高精度視差真實值。 | 用於4D光場深度估計的資料集和評估方法 | GitHub | 4D光場深度估計 |
| ICL-NUIM 資料集 | 2014 | 包含噪聲模型的RGB-D資料,2個場景。專為室內環境設計。 | 一個用於RGB-D視覺里程計、3D重建和SLAM的基準。 | 網站 | RGB-D、視覺里程計和SLAM演算法。 |
3D物件資料集
基本的高階計算機視覺問題,例如目標檢測或分割,完全受益於合成數據提供的完美標註,並且為使合成數據適用於這些問題付出了大量努力。由於建立合成數據需要開發3D模型,資料集通常還包含與3D相關的標註,例如深度圖、形狀的標記3D部分、體積3D資料等等。
| 資料集 | 年份 | 描述 | 論文 | 撰寫時的引用 | 其他連結 |
|---|---|---|---|---|---|
| ADORESet | 2019 | 用於物體識別測試的混合資料集 | 一種混合影像資料集,旨在彌合機器人學中真實環境和模擬環境之間的差距。 | 13 | GitHub |
| Falling Things | 2018 | 在虛擬環境中YCB物件的6.15萬張影像 | 掉落的物體:用於3D物體檢測和姿態估計的合成數據集。 | 171 | 網站 |
| PartNet | 2018 | 26671個模型,573535個已標註部分例項 | PartNet:用於細粒度和分層零件級3D物體理解的大規模基準。 | 552 | 網站 |
| ShapeNetCore | 2017 | 55個類別中的51K個手動驗證模型 | 大規模3D形狀重建和ShapeNet Core55分割。 | 71 | 網站 |
| VANDAL | 2017 | 410萬張深度影像,超過9K個物件,319個類別 | 合成數據的深度影像深度表示。 | 43 | 不適用 |
| UnrealCV | 2017 | UE4的外掛,用於生成合成資料 | UnrealCV:計算機視覺的虛擬世界。 | 95 | 不適用 |
| SceneNet RGB-D | 2017 | 來自1.6萬條3D軌跡的500萬張RGB-D影像 | SceneNet RGB-D:500萬張合成影像能否在室內分割方面超越通用的ImageNet預訓練? | 309 | 網站 |
| DepthSynth | 2017 | 用於深度感測器真實模擬的框架 | 從CAD模型生成即時逼真合成數據,用於2.5D識別。 | 84 | 不適用 |
| 3DScan | 2016 | 大量物體掃描資料集 | 大量的物體掃描資料集。 | 223 | 網站 |
結論
合成數據集的開發和利用徹底改變了計算機視覺領域。它們不僅解決了資料稀缺問題,而且確保了僅憑真實世界資料難以實現的高精度和可變性。隨著技術的進步,我們可以期待更復雜、更逼真的資料集,這些資料集將繼續突破計算機視覺的界限。