社群計算機視覺課程文件
基於 CNN 的影片模型
並獲得增強的文件體驗
開始使用
基於 CNN 的影片模型
通用趨勢:
深度學習的成功,尤其是大規模資料集(如 ImageNet)上訓練的 CNN,徹底改變了影像識別。這一趨勢在影片處理中也得以延續。然而,與靜態影像相比,影片資料引入了另一個維度:時間。這種簡單的變化帶來了一系列新的挑戰,而靜態影像中訓練的 CNN 並沒有為此做好準備。
影片處理中之前的 SOTA 模型
雙流網路 (2014)

本文擴充套件了深度卷積網路 (ConvNets) 以在影片資料中執行動作識別。
所提出的架構被稱為雙流網路。它在神經網路中使用了兩個獨立的路徑:
- 空間流: 標準的 2D CNN 處理單個幀以捕獲外觀資訊。
- 時間流: 2D CNN 或其他網路,處理多個幀序列(光流)以捕獲運動資訊。
- 融合: 然後將兩個流的輸出組合起來,以利用外觀和運動線索進行動作識別等任務。
3D ResNet (2017)

標準 3D CNN 擴充套件了概念,使用 3D 核(2D 空間資訊 + 時間資訊)同時捕獲空間和時間資訊。該模型的一個缺點是引數數量龐大,導致訓練計算量更大,因此比 2D 版本慢。因此,ConvNet 的 3D 版本通常比 2D CNN 的更深層架構具有更少的層。
在本文中,作者將 ResNet 架構應用於 3D CNN。這種方法為 3D CNN 引入了更深的模型並實現了更高的準確性。
實驗表明,3D ResNet(尤其是 ResNet-34 等更深的模型)優於 C3D 等模型,特別是在更大的資料集上。Sports-1M C3D 等預訓練模型可以幫助減輕小資料集上的過擬合。總體而言,3D ResNet 有效地利用了更深層架構來捕獲影片資料中複雜的時空模式。
| 方法 | 驗證集 | 測試集 | ||||
|---|---|---|---|---|---|---|
| Top-1 | Top-5 | 平均分 | Top-1 | Top-5 | 平均分 | |
| 3D ResNet-34 | 58.0 | 81.3 | 69.7 | - | - | 68.9 |
| C3D* | 55.6 | 79.1 | 67.4 | 56.1 | 79.5 | 67.8 |
| 帶 BN 的 C3D | 56.1 | 79.5 | 67.8 | - | - | - |
| 不帶 ImageNet 的 RGB-I3D | - | - | 68.4 | 88.0 | 78.2 |
(2+1)D ResNet (2017)
D convolution..png)
(2+1)D ResNet 的靈感來源於 3D ResNet。然而,關鍵的區別在於層的結構。這種架構引入了 2D 卷積和 1D 卷積的組合
- 2D 卷積捕獲幀內的空間特徵。
- 1D 卷積捕獲連續幀之間的運動資訊。
該模型可以直接從影片資料中學習時空特徵,可能在動作識別等影片分析任務中帶來更好的效能。
- 優點
- 在兩次操作之間新增非線性整流(ReLU)使非線性操作的數量增加了一倍,與使用相同引數數量的完整 3D 卷積網路相比,該模型能夠表示更復雜的函式。
- 分解有助於最佳化,在實踐中產生更低的訓練損失和測試損失。
| 方法 | Clip@1 準確率 | Video@1 準確率 | Video@5 準確率 |
|---|---|---|---|
| DeepVideo | 41.9 | 60.9 | 80.2 |
| C3D | 46.1 | 61.1 | 85.2 |
| 2D ResNet-152 | 46.5 | 64.6 | 86.4 |
| 卷積池化 | - | 71.7 | 90.4 |
| P3D | 47.9 | 66.4 | 87.4 |
| R3D-RGB-8幀 | 53.8 | - | - |
| R(2+1)D-RGB-8幀 | 56.1 | 72.0 | 91.2 |
| R(2+1)D-Flow-8幀 | 44.5 | 65.5 | 87.2 |
| R(2+1)D-雙流-8幀 | - | 72.2 | 91.4 |
| R(2+1)D-RGB-32幀 | 57.0 | 73.0 | 91.5 |
| R(2+1)D-Flow-32幀 | 46.4 | 68.4 | 88.7 |
| R(2+1)D-雙流-32幀 | - | 73.3 | 91.9 |
當前研究
目前,研究人員正在探索更深的 3D CNN 架構。另一種有前途的方法是將 3D CNN 與注意力機制等其他技術相結合。除此之外,還有一項推動開發 Kinetics 等更大影片資料集的努力。Kinetics 資料集是一個大規模高質量影片資料集,常用於人類動作識別研究。它包含數十萬個涵蓋廣泛人類活動的影片片段。
當前研究
自監督學習:MoCo (動量對比)

概覽
MoCo 是自監督學習領域的一個突出模型,它使用對比學習方法從未標記的影片片段中提取特徵。透過利用基於動量的佇列,它有效地從大規模影片資料集中學習,使其非常適合動作識別和事件檢測等任務。
主要功能
- 動量編碼器:使用動量更新的編碼器來保持表示空間的一致性,增強訓練穩定性。
- 動態字典:採用基於佇列的字典,為對比學習提供大量一致的負樣本。
- 對比損失函式:利用對比損失透過比較正負對來學習不變特徵。
高效影片模型:X3D (擴充套件 3D 網路)
.png)
概覽
X3D 是一種輕量級 3D ConvNet 模型,專為影片識別任務而設計。它基於 3D CNN 的概念,但優化了更少的引數和更低的計算成本,同時保持了高效能。這使得它適用於即時影片分析和在移動或邊緣裝置上的部署。
主要功能
- 效率:以顯著更少的引數和更低的計算成本實現高精度。
- 漸進式擴充套件:利用系統方法擴充套件網路維度(例如,深度、寬度)以獲得最佳效能。
- 易於部署:專為在計算資源有限的裝置上輕鬆部署而設計。
即時影片處理:ST-GCN (時空圖卷積網路)
.png)
概覽
ST-GCN 是一種專為即時動作識別而設計的模型,特別是在分析影片序列中的人體運動方面。它使用圖結構建模時空資料,有效地捕獲人體關節位置和運動。該模型廣泛用於監控和體育分析等應用中的即時動作檢測。
這些尖端模型在推動影片處理方面發揮著至關重要的作用,在影片分類、動作識別和即時處理等領域表現出色。
主要功能
- 基於圖的建模:將人體骨骼資料表示為圖,允許自然地建模關節連線。
- 時空卷積:整合空間和時間圖卷積以捕獲動態運動模式。
- 即時效能:針對快速計算進行了最佳化,使其適用於即時應用。
結論
影片分析模型的演變令人著迷。這些模型深受其他 SOTA 模型的影響。例如,雙流網路(Two-StreamNets)受到 ConvNets 的啟發,而 (2+1)D ResNet 則受到 3D ResNet 的啟發。隨著研究的深入,未來有望出現更先進的架構和技術。
< > 在 GitHub 上更新