社群計算機視覺課程文件

遷移學習

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

遷移學習

在我們深入探討遷移學習和微調對神經網路的意義之前,讓我們以樂器為例。特雷門琴是一種電子樂器,發出一種怪異的聲音,通常與驚悚片和恐怖電影相關聯。它很難演奏,因為它需要你用雙手在兩個天線之間移動,以控制音高和音量。它太難了,以至於有人發明了一種名為 Tannerin(也稱為滑奏特雷門琴或電子特雷門琴)的樂器,它發出類似的聲音,但更容易演奏。演奏者將盒子側面的滑塊移動到所需的頻率以產生音高。演奏它仍然有一個學習曲線……嗯,除非你會吹長號。當你吹長號時,你已經知道如何使用 Tannerin 滑塊,因為它與長號上的伸縮滑塊機制相同。下面,從左到右依次是:特雷門琴、Tannerin 和長號。

Theremin, Tannerin, and the Trombone

在這種情況下,長號演奏者有效地利用他透過演奏長號所學到的知識來演奏 Tannerin。他將從一種樂器中學到的知識轉移到另一種樂器。我們也可以將這個概念用於神經網路。神經網路在對狗或貓進行分類時學到的東西可以用來識別其他動物。其工作原理的解釋是由於網路在模型中學習特徵的方式。也就是說,用於分類狗的特徵也可以分類馬。我們利用模型已有的知識來完成不同的任務。

遷移學習要求先前的知識對於另一項任務是“有用”的。因此,我們試圖探索的特徵需要足夠通用,以適用於新的應用。如果我們回到樂器示例,演奏薩克斯風而不是長號對學習如何演奏 Tannerin 並沒有那麼大的幫助。長號演奏者之所以能領先一步,主要在於對滑奏位置的直觀理解。

然而,薩克斯管演奏者並非從零開始。他熟悉樂理、節奏和時機等概念。這些通用技能使他們比從未演奏過任何樂器的人更有優勢。演奏樂器的行為賦予所有演奏者一套通用的技能,這些技能在不同樂器之間都很有用。這種跨領域(在我們的例子中是樂器)的泛化是模型學習速度比從零開始訓練快得多的原因。

遷移學習和微調

讓我們區分一下我們正在討論的概念。長號演奏者無需訓練即可演奏 Tannerin。他已經在不知不覺中知道了如何做到這一點。薩克斯管演奏者需要一些訓練來微調他的技能以演奏 Tannerin。在深度學習術語中,長號演奏者使用了現成的模型。這被稱為遷移學習。需要更多時間學習的模型訓練,就像我們的薩克斯管演奏者一樣,被稱為微調。

微調模型時,我們無需訓練所有部分。我們可以只訓練效能不佳的部分。以一個計算機視覺模型為例,它包含三個部分:特徵提取、特徵增強和最終任務。在這種情況下,您可以使用相同的特徵提取和特徵增強,而無需進行任何再訓練。因此,我們只關注對最終任務進行再訓練。

如果微調最終任務後結果不令人滿意,我們仍然不需要重新訓練整個特徵提取部分。一個好的折衷方案是隻重新訓練頂層權重。在卷積網路中,層級越高,其特徵對任務和資料集的特性就越強。換句話說,第一個卷積層中的特徵更通用,而最後一個層則更具體。以我們的演奏者為例,這相當於不用浪費時間向經驗豐富的薩克斯管演奏者解釋樂理,而是隻教他如何在 Tannerin 中改變音高。

遷移學習的考量

我們的例子也給我們提供了一個有趣的細微差別。特雷門琴太難演奏了,所以他們發明了一種更容易的樂器,能發出相同的聲音。輸出幾乎相同,但需要的訓練時間大大減少。對於計算機視覺,我們可能首先進行目標檢測,以檢視影像中狗的位置,然後構建一個分類器來告訴我們狗的品種,而不是嘗試立即構建一個分類器。

最後,遷移學習並非萬能的效能增強器。在我們的例子中,演奏一種樂器可能有助於我們學習另一種樂器,但也可能阻礙進步。一種樂器中的模式和壞習慣可能會減慢另一種樂器的進步。如果這些壞習慣根深蒂固在演奏者身上,一個新手玩家在相同的訓練量下可能會超越這個新玩家。如果您的玩家固守他們的壞習慣,也許是時候僱傭新玩家了。

遷移學習與自訓練

當沒有足夠的帶標籤資料從頭開始重新訓練模型時,遷移學習尤其能發揮作用。以我們的例子來說,我們可以想象,只要有足夠的時間,一個只上過幾節課的演奏者就可以在沒有老師持續監督的情況下,透過演奏樂器自行學習。在深度學習中,部分或完全依靠自己學習被稱為自訓練。它允許我們使用帶標籤(課程)和無標籤(演奏者自己)資料來訓練模型以學習任務。

儘管我們不會在本節中討論自訓練的概念,但我們在此將其作為一種資源提及,因為當遷移學習不起作用且帶標籤資料稀缺時,自訓練會非常有幫助。這些概念也不是相互排斥的,一個經驗豐富的演奏者可能只需要幾節課就能在沒有監督的情況下自主訓練一種新樂器,事實證明,我們的深度學習模型也是如此。

資源

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.