社群計算機視覺課程文件
基於多模態的影片模型
並獲得增強的文件體驗
開始使用
基於多模態的影片模型
如前幾章所述,影片可以簡單地定義為一系列影像。然而,與簡單的影像不同,影片包含聲音、文字和運動等多種模態。從這個角度來看,為了正確理解影片,我們必須同時考慮多種模態。在本章中,我們首先簡要解釋影片中可能存在的模態。然後,我們介紹透過對齊影片與不同模態進行學習的架構。
影片中存在哪些模態?
影片包含多種模態,而不僅僅是影像序列。理解這些不同的模態對於全面的影片分析和處理至關重要。影片中主要存在的模態包括:
- 視覺模態(幀/影像):最常見的模態,由影像序列組成,提供影片的視覺資訊。
- 音訊模態(聲音):包括對話、背景音樂和環境聲音,可以傳達影片的上下文資訊。
- 文字模態(字幕/副標題):以字幕、標題或螢幕文字的形式出現,提供與影片上下文相關的顯式資訊。
- 運動模態(運動動態):捕捉影片幀之間的時間變化,反映運動和過渡。
- 深度模態:表示影片的 3D 空間資訊。
- 感測器模態:在某些應用中,影片可能包含溫度或生物識別資料等模態。

除了上述模態,影片還可以包含更多樣化的模態型別。請務必考慮哪些模態對於您的特定工作或專案是必需的。在下一節中,我們將探索能夠聯合對齊和表示這些模態的影片架構。
影片與文字
VideoBERT
概覽

VideoBERT 嘗試將 BERT 架構直接應用於影片資料。就像語言模型中的 BERT 一樣,其目標是在沒有任何監督的情況下學習良好的視覺-語言表示。對於文字模態,VideoBERT 使用 ASR(自動語音識別)將音訊轉換為文字,然後獲取 BERT 標記嵌入。對於影片,它使用 S3D 獲取每個幀的標記嵌入。
主要功能
- 語言-視覺對齊:分類給定的文字和影片幀是否對齊。
- 遮蔽語言建模:預測文字中的遮蔽標記(就像 BERT 中一樣)。
- 遮蔽幀建模:預測遮蔽的影片幀(就像 MLM 預測文字中的遮蔽標記一樣)。
重要性
VideoBERT 是首批透過學習聯合表示有效整合影片語言理解的模型之一。與以前的方法不同,VideoBERT 不使用檢測模型進行影像-文字標註。相反,它使用聚類演算法來實現遮蔽幀建模,從而使模型能夠預測遮蔽幀而無需顯式標註資料。
MERLOT
概覽
MERLOT 旨在透過從大規模影片-文字資料集中學習來改進多模態推理。它專注於使用無標註資料來理解視覺和文字資訊之間的互動。透過利用大規模無標註資料集 YT-Temporal-180M,MERLOT 在無需大量視覺監督的情況下,在視覺常識推理方面表現出強大的效能。
主要功能
重要性
儘管模型架構和訓練方法並非全新,但 MERLOT 透過在大型視覺文字資料集 YT-Temporal-180M 上進行訓練,實現了效能提升。這個龐大的資料集使模型能夠更好地理解時間動態和多模態互動,從而在影片-語言任務中增強推理和預測能力。
注意:如果您想了解 MERLOT 的詳細訓練過程,請務必參考 MERLOT 論文以及早期工作,如 [HERO](https://aclanthology.org/2020.emnlp-main.161.pdf)、[CBT](https://arxiv.org/pdf/1906.05743) 和 [HAMMER](https://aclanthology.org/2020.emnlp-main.161.pdf)。影片、音訊與文字
VATT (視覺-音訊-文字 Transformer)
概覽

VATT 是一個旨在從原始影片、音訊和文字中進行自監督學習的模型。對每種模態應用了不同的分詞和位置編碼方法,VATT 使用 Transformer 編碼器有效整合了來自原始多模態資料的表示。因此,它在動作識別和文字到影片檢索等各種下游任務中取得了強大的效能。
主要功能
- 模態特定 & 模態無關:模態特定版本為每種模態使用獨立的 Transformer 編碼器,而模態無關版本則使用單個 Transformer 編碼器整合所有模態。雖然模態特定版本表現出更好的效能,但模態無關版本在引數更少的情況下,仍在下游任務中展現出強大的效能。
- Droptoken:由於影片中的冗餘(包括音訊和文字資料),只採樣一部分標記可以實現更高效的訓練。
- 多模態對比學習:影片-音訊對使用噪聲對比估計(NCE),而影片-文字對應用多例項學習 NCE(MIL-NCE)。
重要性
以前使用 Transformer 進行影片多模態任務的模型往往嚴重依賴視覺資料,並且需要大量的訓練時間和計算複雜度。相比之下,VATT 利用 Droptoken 和權重共享,以相對較低的計算複雜度從原始視覺、音訊和文字資料中學習強大的多模態表示。
Video-Llama
概覽
Video-LLaMA 是一個多模態框架,旨在擴充套件大型語言模型 (LLM) 以理解影片中的視覺和聽覺內容。它整合了影片、音訊和文字,使模型能夠處理和生成基於視聽資訊的有意義響應。Video-LLaMA 解決了兩個關鍵挑戰:捕捉視覺場景中的時間變化,以及將視聽訊號整合到統一系統中。
主要功能
Video-LLaMA 有兩個分支:
- 視覺-語言分支用於處理影片幀
- 音訊-語言分支用於處理音訊訊號。
這些分支分別進行訓練,經歷預訓練和微調階段。在預訓練階段,模型學習整合不同的模態,而在微調階段,它專注於提高準確執行指令的能力。
在視覺-語言分支中,存在大量的視覺-文字資料。然而,對於音訊-語言分支,缺乏足夠的音訊-文字資料。為了解決這個問題,模型利用 ImageBind,允許音訊-語言分支使用視覺-文字資料進行訓練。
重要性
以前的模型難以同時處理視覺和聽覺內容。Video-LLaMA 透過將這些模態整合到單個框架中來解決這個問題,捕捉影片中的時間變化並對齊視聽訊號。它透過使用跨模態預訓練和指令微調,克服了早期研究的侷限性,在影片對話等多模態任務中取得了強大的效能,而無需依賴單獨的模型。
影片與多種模態
ImageBind
概覽

ImageBind 利用影像與其他模態的配對資料,以影像資料為中心整合不同的模態表示。
主要功能
ImageBind 透過利用影像與其他模態的配對來統一多種模態。透過將 *InfoNCE* 作為損失函式,模型對齊了各種輸入之間的表示。即使在非影像模態之間沒有配對資料的情況下,ImageBind 也能有效地執行跨模態檢索和零樣本任務。此外,ImageBind 的訓練過程相對於其他模型來說相對簡單,並且可以透過各種方式實現。
重要性
ImageBind 的主要貢獻在於它能夠整合各種模態,而無需特定的模態配對資料集。它以影像為參考,將多達六種不同模態——例如音訊、文字、深度等——對齊並組合到一個統一的表示空間中。其重要性在於它能夠同時實現跨多種模態的對齊,而無需對每種組合進行直接配對,這使其在多模態學習中具有高效性。
總結
我們簡要探討了影片中存在的不同模態,然後探索了將視覺資訊與其他各種模態整合的模型。隨著時間的推移,越來越多的研究致力於一次性整合各種模態。
我很期待看到未來會出現哪些模型,它們將影片內容中整合更多樣化的模態。透過影片推進多模態表示學習的潛力感覺是無限的!
< > 在 GitHub 上更新