社群計算機視覺課程文件
基於影像的聯合嵌入預測架構 (I-JEPA)
並獲得增強的文件體驗
開始使用
基於影像的聯合嵌入預測架構 (I-JEPA)
概述
基於影像的聯合嵌入預測架構(I-JEPA)是 Meta AI 於 2023 年推出的一種開創性的自監督學習模型。它解決了在不依賴傳統標籤或手工資料增強的情況下理解影像的挑戰。為了更好地瞭解 I-JEPA,我們首先討論幾個概念。
基於不變性與生成式預訓練方法
我們可以說,從影像中進行自監督學習主要有兩種方法:基於不變性的方法和生成式方法。這兩種方法各有優缺點。
基於不變性的方法:在這些方法中,模型試圖為同一影像的不同檢視生成相似的嵌入。當然,這些不同的檢視是手工製作的,是我們都熟悉的資料增強。例如,旋轉、縮放和裁剪。這些方法擅長在較高的語義級別生成表示,但問題是它們引入了強烈的偏差,這可能對某些下游任務有害。例如,影像分類和例項分割不需要資料增強。
生成式方法:模型嘗試使用這些方法重建輸入影像。這就是為什麼這些方法有時被稱為基於重建的自監督學習。掩碼隱藏了輸入影像的補丁,模型嘗試在畫素或令牌級別重建這些損壞的補丁(請記住這一點)。這種掩碼方法可以很容易地推廣到影像模態之外,但不能生成與基於不變性的方法相同質量的表示。此外,這些方法計算成本高,需要大型資料集才能進行穩健訓練。
現在讓我們談談聯合嵌入架構。
聯合嵌入架構
這是一種新近且流行的自監督影像學習方法,其中訓練兩個網路以針對同一影像的不同檢視生成相似的嵌入。基本上,它們訓練兩個網路對同一張圖片的不同檢視“說相同的語言”。常見的選擇是暹羅網路架構,其中兩個網路共享相同的權重。但與其他一切一樣,它也有自己的問題
表示崩潰:模型無論輸入如何都生成相同表示的情況。
輸入相容性標準:有時找到良好且適當的相容性度量可能具有挑戰性。
聯合嵌入架構的一個例子是 VICReg
可以採用不同的訓練方法來訓練聯合嵌入架構,例如
- 對比方法
- 非對比方法
- 聚類方法
到目前為止一切順利,現在是 I-JEPA。首先,I-JEPA 論文中的下圖展示了聯合嵌入方法、生成方法和 I-JEPA 之間的區別。

基於影像的聯合嵌入預測架構 (I-JEPA)
I-JEPA 試圖改進生成式和聯合嵌入方法。概念上,它與生成式方法相似,但有以下主要區別
抽象預測:在我看來,這是 I-JEPA 最令人著迷的方面。還記得我們提到生成式方法以及它們如何嘗試在畫素級別重建損壞的輸入嗎?現在,與生成式方法不同,I-JEPA 嘗試使用其引入的預測器在表示空間中預測它,這就是他們稱之為抽象預測的原因。這使得模型能夠學習更強大的語義特徵。
多塊掩碼:提高 I-JEPA 生成的語義特徵的另一個設計選擇是掩碼輸入影像的足夠大的塊。
I-JEPA 元件
前面的圖表顯示並比較了 I-JEPA 架構,下面是其主要元件的簡要說明
目標編碼器 (y-encoder):編碼目標影像,透過掩碼其輸出生成目標塊。
上下文編碼器 (x-encoder):編碼影像中隨機取樣的上下文塊以獲得相應的補丁級表示。
預測器:將上下文編碼器的輸出和每個要預測的補丁的掩碼令牌作為輸入,並嘗試預測被掩碼的目標塊。
目標編碼器、上下文編碼器和預測器都使用 Vision Transformer (ViT) 架構。您可以在本課程的第三單元中複習它們。
論文中的下圖說明了 I-JEPA 的工作原理。

為什麼它很重要
那麼,為什麼選擇 I-JEPA?I-JEPA 引入了許多新的設計特性,同時仍然是一種簡單有效的方法,無需依賴手工資料增強即可學習語義影像表示。簡而言之,
I-JEPA 在 ImageNet-1K 線性探測、半監督 1% ImageNet-1K 和語義遷移任務上優於 Masked Autoencoders (MAE) 等畫素重建方法。
I-JEPA 在語義任務上與檢視不變預訓練方法具有競爭力,並在物體計數和深度預測等低階視覺任務上取得了更好的效能。
透過使用具有較少剛性歸納偏差的更簡單模型,I-JEPA 適用於更廣泛的任務集。
I-JEPA 也具有可擴充套件性和效率。在 ImageNet 上進行預訓練需要不到 1200 個 GPU 小時。