社群計算機視覺課程文件
零樣本學習
並獲得增強的文件體驗
開始使用
零樣本學習
在導論章節之後,我們將詳細解釋零樣本學習(ZSL)。本章旨在涵蓋:
- 各種零樣本學習的定義及其區別。
- 一個使用語義嵌入的零樣本學習的深入示例 [1]。
零樣本學習與廣義零樣本學習
零樣本學習(ZSL)和廣義零樣本學習(GZSL)屬於一種機器學習演算法型別,其中影像分類模型需要對訓練中未包含的標籤進行分類。ZSL 和 GZSL 非常相似,主要區別在於模型的評估方式 [2]。
對於 ZSL,模型純粹根據其對未見類影像的分類能力進行評估——只有未見類的觀測值被包含在 ZSL 測試資料集中。對於 GZSL,模型在已見類和未見類上都進行評估——這被認為更接近實際使用場景。總的來說,GZSL 更具挑戰性,因為模型需要判斷觀測值屬於新類別還是已知類別。
歸納式零樣本學習與直推式零樣本學習
根據訓練資料的型別,零樣本學習分為兩種:
在歸納式零樣本學習(inductive ZSL)中,模型只在包含已見類別的資料集上進行訓練,無法訪問任何來自未見類別的資料。學習過程側重於從訓練資料中提取和泛化模式,然後將這些模式應用於未見類別的例項分類。這種方法假設在訓練期間已見資料和未見資料之間存在明確的分離,強調模型從訓練資料泛化到未見類別的能力。
直推式零樣本學習(transductive ZSL)的不同之處在於,它允許模型在訓練期間訪問一些關於未見類別的資訊,通常是未見類別的屬性或未標記示例,但沒有標籤。這種方法利用關於未見資料結構的額外資訊來訓練一個更具泛化能力的模型。
在下一節中,我們將遵循 Google 一篇經典研究論文 [1] 的主要概念,並給出一個歸納式零樣本學習的示例。
使用語義嵌入的零樣本學習示例
如前一章所述,開發一個成功的 ZSL 模型不僅僅需要影像和類別標籤。僅憑影像幾乎不可能對未見類別進行分類。ZSL 利用輔助資訊,例如語義屬性或嵌入,來幫助對來自未見類別的影像進行分類。在深入細節之前,以下是對不熟悉該術語的讀者進行的語義嵌入的簡短介紹。
什麼是語義嵌入?
語義嵌入是語義資訊的向量表示,它們承載著資料的含義和解釋。例如,透過口頭文字傳遞的資訊是一種語義資訊。語義資訊不僅包括詞語或句子的直接含義,還包括語境和文化內涵。
嵌入是指將語義資訊對映到實數向量的過程。語義嵌入通常透過無監督機器學習模型學習,例如 Word2Vec [3] 或 GloVe [4]。所有型別的文字資訊,例如詞語、短語或句子,都可以根據既定程式轉換為數值向量。語義嵌入在高維空間中描述詞語,其中詞語之間的距離和方向反映了它們的語義關係。這使得機器能夠透過對詞嵌入進行數學運算來理解每個詞的使用方式、同義詞和語境。
使用語義嵌入實現零樣本學習
在訓練過程中,ZSL 模型學習將已見類別影像的視覺特徵與其對應的語義嵌入關聯起來。目標是最小化影像的投影視覺特徵與其類別的語義嵌入之間的距離。這個過程有助於模型學習影像與語義資訊之間的對應關係。
由於模型已經學會將影像特徵投影到語義空間中,它可以透過將未見類影像的特徵投影到同一空間並與未見類的嵌入進行比較來嘗試分類。對於未見類別的影像,模型會計算其投影嵌入,然後搜尋未見類別中最近的語義嵌入。具有最近嵌入的未見類別就是該影像的預測標籤。
總而言之,語義嵌入是 ZSL 的核心,使模型能夠擴充套件其分類能力。這種方法允許以更靈活和可擴充套件的方式對大量的真實世界類別進行分類,而無需標記資料集。
與 CLIP 的比較
ZSL 與 CLIP(對比語言-影像預訓練)[5] 之間的關係源於它們共同的目標:使模型能夠識別和分類訓練資料中不存在的影像類別。然而,CLIP 代表了 ZSL 原理的重大進步和更廣泛的應用,它利用了一種新穎的學習和泛化方法。
CLIP 與 ZSL 的關係可以描述為:
ZSL 和 CLIP 都旨在將影像分類到訓練期間未見過的類別中。然而,傳統的 ZSL 方法可能依賴預定義的語義嵌入或屬性來彌合已見類別和未見類別之間的差距,而 CLIP 直接從自然語言描述中學習,使其能夠泛化到更廣泛的任務,而無需任務特定的嵌入。
CLIP 是多模態學習的典範,模型從文字和視覺資料中學習。這種方法與 ZSL 一致,即使用輔助資訊來提高分類效能。CLIP 透過直接從原始文字和影像中學習,進一步發展了這一概念,使其能夠理解和表示視覺內容與描述性語言之間的關係。
零樣本學習評估資料集
每年都有新的 ZSL 方法提出,由於評估方法各異,因此很難確定一種優越的方法。標準化評估框架和資料集是評估不同 ZSL 方法的首選。文獻 [6] 介紹了經典 ZSL 方法的比較研究。常用的 ZSL 評估資料集包括:
- 動物屬性(AwA)
用於基準遷移學習演算法的資料集,特別是基於屬性的分類 [7]。它包含 30475 張影像,涵蓋 50 個動物類別,每張影像有六種特徵表示。
- 加州理工學院-加州大學聖地亞哥分校鳥類-200-2011(CUB)
用於細粒度視覺分類任務的資料集。它包含 11788 張影像,涵蓋 200 個鳥類亞類別。每張影像有一個亞類別標籤、15 個部分位置、312 個二進位制屬性和一個邊界框。此外,透過亞馬遜 Mechanical Turk 收集了每張影像的十句描述,這些描述經過精心構建,不包含任何亞類別資訊。
- 太陽資料庫(SUN)
第一個大規模場景屬性資料庫。該資料集包含 130519 張影像,涵蓋 899 個類別,可用於高階場景理解和細粒度場景識別。
- 屬性 Pascal 和 Yahoo 資料集(aPY)
一個粗粒度資料集,由來自 3 個大類別(動物、物體和車輛)的 15339 張影像組成,進一步分為總共 32 個亞類別。
- ILSVRC2012/ILSVRC2010(ImNet-2)
ImageNet 大規模視覺識別挑戰賽(ILSVRC)評估大規模目標檢測和影像分類演算法 [8]。
參考文獻
- [1] Frome et al., DeViSE: 一種深度視覺語義嵌入模型, NIPS, (2013)
- [2] Pourpanah et al., 廣義零樣本學習方法綜述 (2022)。
- [3] Mikilov et al., 向量空間中詞語表示的有效估計, ICLR (2013)。
- [4] Pennington et al., Glove: 用於詞語表示的全域性向量, EMNLP (2014)。
- [5] Radford et al., 從自然語言監督中學習可遷移的視覺模型, arXiv (2021)。
- [6] Xian et al., 零樣本學習 - 好的,壞的,醜的, CVPR (2017)。
- [7] Lampert et al., 透過類間屬性遷移學習檢測未見物體類別, CVPR (2009)。
- [8] Deng et al., ImageNet: 一個大規模分層影像資料庫, CVPR (2012)。