基於影像的聯合嵌入預測架構 (I-JEPA)

概述

基於影像的聯合嵌入預測架構（I-JEPA）是 Meta AI 於 2023 年推出的一種開創性的自監督學習模型。它解決了在不依賴傳統標籤或手工資料增強的情況下理解影像的挑戰。為了更好地瞭解 I-JEPA，我們首先討論幾個概念。

我們可以說，從影像中進行自監督學習主要有兩種方法：基於不變性的方法和生成式方法。這兩種方法各有優缺點。

基於不變性的方法：在這些方法中，模型試圖為同一影像的不同檢視生成相似的嵌入。當然，這些不同的檢視是手工製作的，是我們都熟悉的資料增強。例如，旋轉、縮放和裁剪。這些方法擅長在較高的語義級別生成表示，但問題是它們引入了強烈的偏差，這可能對某些下游任務有害。例如，影像分類和例項分割不需要資料增強。
生成式方法：模型嘗試使用這些方法重建輸入影像。這就是為什麼這些方法有時被稱為基於重建的自監督學習。掩碼隱藏了輸入影像的補丁，模型嘗試在畫素或令牌級別重建這些損壞的補丁（請記住這一點）。這種掩碼方法可以很容易地推廣到影像模態之外，但不能生成與基於不變性的方法相同質量的表示。此外，這些方法計算成本高，需要大型資料集才能進行穩健訓練。

現在讓我們談談聯合嵌入架構。

這是一種新近且流行的自監督影像學習方法，其中訓練兩個網路以針對同一影像的不同檢視生成相似的嵌入。基本上，它們訓練兩個網路對同一張圖片的不同檢視“說相同的語言”。常見的選擇是暹羅網路架構，其中兩個網路共享相同的權重。但與其他一切一樣，它也有自己的問題

聯合嵌入架構的一個例子是 VICReg

可以採用不同的訓練方法來訓練聯合嵌入架構，例如

到目前為止一切順利，現在是 I-JEPA。首先，I-JEPA 論文中的下圖展示了聯合嵌入方法、生成方法和 I-JEPA 之間的區別。

I-JEPA Comparisons

I-JEPA 試圖改進生成式和聯合嵌入方法。概念上，它與生成式方法相似，但有以下主要區別

抽象預測：在我看來，這是 I-JEPA 最令人著迷的方面。還記得我們提到生成式方法以及它們如何嘗試在畫素級別重建損壞的輸入嗎？現在，與生成式方法不同，I-JEPA 嘗試使用其引入的預測器在表示空間中預測它，這就是他們稱之為抽象預測的原因。這使得模型能夠學習更強大的語義特徵。
多塊掩碼：提高 I-JEPA 生成的語義特徵的另一個設計選擇是掩碼輸入影像的足夠大的塊。

前面的圖表顯示並比較了 I-JEPA 架構，下面是其主要元件的簡要說明

目標編碼器、上下文編碼器和預測器都使用 Vision Transformer (ViT) 架構。您可以在本課程的第三單元中複習它們。

論文中的下圖說明了 I-JEPA 的工作原理。

I-JEPA method

那麼，為什麼選擇 I-JEPA？I-JEPA 引入了許多新的設計特性，同時仍然是一種簡單有效的方法，無需依賴手工資料增強即可學習語義影像表示。簡而言之，

I-JEPA 在 ImageNet-1K 線性探測、半監督 1% ImageNet-1K 和語義遷移任務上優於 Masked Autoencoders (MAE) 等畫素重建方法。
I-JEPA 在語義任務上與檢視不變預訓練方法具有競爭力，並在物體計數和深度預測等低階視覺任務上取得了更好的效能。
透過使用具有較少剛性歸納偏差的更簡單模型，I-JEPA 適用於更廣泛的任務集。
I-JEPA 也具有可擴充套件性和效率。在 ImageNet 上進行預訓練需要不到 1200 個 GPU 小時。