社群計算機視覺課程文件
多模態模型的遷移學習
並獲得增強的文件體驗
開始使用
多模態模型的遷移學習
在前面的章節中,我們深入探討了 CLIP 及其相關模型等多模態模型的基本概念。本章中,我們將嘗試找出如何將不同型別的多模態模型用於您的任務。
有幾種方法可以將多模態模型適配到您的用例中
零樣本/少樣本學習。零樣本/少樣本學習是指利用大型預訓練模型來解決訓練資料中不存在的問題。當任務的標記資料很少(5-10 個示例)或根本沒有時,這些方法會很有用。單元 11 將更深入地探討此主題。
從頭開始訓練模型。當無法獲得預訓練模型權重或模型的訓練資料集與您自己的資料集有很大差異時,此方法變得必要。在這裡,我們隨機初始化模型權重(或透過更復雜的方法,如He 初始化),然後進行常規訓練。但是,這種方法需要大量的訓練資料。
遷移學習。遷移學習與從頭開始訓練不同,它使用預訓練模型的權重作為初始權重。
本章主要關注多模態模型中的遷移學習方面。它將回顧遷移學習的含義,闡明其優勢,並提供實際示例,說明如何將遷移學習應用於您的任務!
遷移學習
更正式地講,遷移學習是一組機器學習技術,其中從解決一個問題獲得的知識、表示或模式被重新用於解決另一個相似的問題。
在深度學習的背景下,在遷移學習中,當訓練特定任務的模型時,我們使用另一個模型的權重作為初始權重。預訓練模型通常在大量資料上進行訓練,並且對資料的性質和關係具有有用的知識。這些知識嵌入在該模型的權重中,因此,如果我們使用它們作為初始權重,我們就會將預訓練模型中嵌入的知識遷移到我們正在訓練的模型中。

這種方法有幾個優點
資源效率: 由於預訓練模型是在大量資料上經過長時間訓練的,因此遷移學習需要更少的計算資源來使模型收斂。
減少標記資料的大小: 基於同樣的原因,需要更少的資料才能在測試樣本上達到不錯的質量。
知識遷移: 在對新任務進行微調時,模型利用預訓練模型權重中編碼的現有知識。這種先驗知識的整合通常會提高新任務的效能。
然而,儘管遷移學習具有優勢,但也存在一些應考慮的挑戰
領域轉移: 如果資料分佈差異很大,將知識從源領域適應目標領域可能具有挑戰性。
災難性遺忘: 在微調過程中,模型會調整其引數以適應新任務,這通常會導致它丟失先前學習的與初始任務相關的知識或表示。
遷移學習應用
我們將探討遷移學習在各種任務中的實際應用。下表描述了可以使用多模態模型解決的任務,以及如何在您自己的資料上微調它們的示例。
| 任務 | 描述 | 模型 |
|---|---|---|
| 微調 CLIP | 在自定義資料集上微調 CLIP | openai/clip-vit-base-patch32 |
| VQA | 根據影像用自然語言回答問題 語言基於影像 | dandelin/vilt-b32-mlm |
| 影像到文字 | 用自然語言描述影像 | microsoft/git-base |
| 開放集目標檢測 | 透過自然語言輸入檢測目標 | YOLO-World |
| 助手(類似 GTP-4V) | 多模態領域的指令微調 | LLaVA |