概述 - Hugging Face 社群計算機視覺課程

概述

什麼是 Hiera？

Hiera（分層視覺 Transformer）是一種無需其他視覺模型中存在的特殊元件即可實現高精度的架構。作者提出使用強大的視覺預訓練任務來預訓練 Hiera，以消除不必要的複雜性，並建立更快、更準確的模型。

Hiera Architecture

從 CNN 到 ViT

CNN 和分層模型非常適合計算機視覺任務，因為它們可以有效地捕獲視覺資料的分層和空間結構。這些模型在早期階段使用較少的通道但較高的空間解析度來提取更簡單的特徵，而在後期階段使用更多的通道但較低的空間解析度來提取更復雜的特徵。

CNNs

另一方面，Vision Transformer (ViT) 模型更準確、可擴充套件且架構簡單，它們在被引入時風靡計算機視覺界。然而，這種簡單性也帶來了代價：它們缺乏這種“視覺歸納偏置”（它們的架構並非專門為處理視覺資料而設計）。

人們已經做出了許多努力來調整 ViT，通常透過新增分層元件來彌補其架構中歸納偏置的不足。不幸的是，所有由此產生的模型都變得更慢、更大且更難以擴充套件。

Hiera 的方法：預訓練任務就是你所需要的一切

Hiera 論文的作者認為，透過使用稱為 MAE 的強大視覺預訓練任務，ViT 模型可以學習空間推理並在計算機視覺任務上表現出色，因此，他們可以從最先進的多階段視覺 Transformer 中消除不必要的元件和複雜性，以實現更高的準確性和速度。

論文作者到底移除了哪些元件？要理解這一點，我們首先必須介紹 MViTv2，它是 Hiera 的基礎分層架構。MViTv2 在其四個階段學習多尺度表示：它首先透過小通道容量但高空間解析度來建模低階特徵，然後每個階段都用通道容量換取空間解析度，以便在更深層建模更復雜的高階特徵。

MViTv2

我們不會深入探討 MViTv2 的關鍵特性（因為它不是我們的主要話題），而是在下一節中簡要解釋它們，以說明研究人員如何透過簡化此基礎架構來建立 Hiera。

簡化 MViTv2

Simplifying MViTv2

此表列出了作者為建立 Hiera 對 MViTv2 所做的所有更改，以及每項更改對影像和影片的準確性和速度的影響。

將相對位置嵌入替換為絕對位置嵌入：MViTv2 將原始 ViT 論文中的絕對位置嵌入替換為新增到每個塊中的相對位置嵌入。作者撤銷了這一更改，因為它增加了模型的複雜性，而且從表中可以看出，在 MAE 訓練時這些相對位置嵌入不是必需的（此更改同時提高了準確性和速度）。
移除卷積層：由於論文的核心思想是模型可以透過強大的視覺預訓練任務學習空間偏置，因此移除卷積層（它們是視覺特定模組並可能增加不必要的開銷）似乎是一個重要的改變。作者首先將每個卷積層替換為最大池化層，這最初會降低準確性，因為它對影像特徵有巨大影響。然而，他們意識到可以移除一些這些額外的最大池化層，特別是步幅為 1 的那些，因為它們基本上只是在每個特徵圖上應用 ReLU。透過這樣做，作者幾乎回到了之前的準確性，同時將影像模型的速度提高了 22%，影片模型的速度提高了 27%。

掩碼自編碼器

掩碼自編碼器（MAE）是一種無監督訓練正規化。與任何其他自編碼器一樣，它包括將高維資料（影像）編碼為低維表示（嵌入），以便可以將此資料再次解碼為原始高維資料。然而，視覺 MAE 技術包括丟棄一定量的補丁（約 75%），編碼其餘補丁，然後嘗試預測缺失的補丁。近年來，這一思想已被廣泛用作影像編碼器的預訓練任務。

MAE

為什麼 Hiera 很重要？

在 Transformer 模型主導的時代，仍然有許多嘗試來改進這種簡單的架構，透過新增 CNN 的複雜性將其再次轉換為分層模型。儘管分層模型在計算機視覺領域表現出色，但這項研究表明，實現分層 Transformer 不需要複雜的架構修改。相反，僅僅專注於訓練任務就能產生簡單、快速、精確的模型。

< > 在 GitHub 上更新