視覺中的保留

什麼是保留網路

保留網路 (RetNet) 是論文《保留網路：大型語言模型的 Transformer 後繼者》中提出的一種用於大型語言模型的基礎架構。該架構旨在解決大型語言模型領域的關鍵挑戰：訓練並行性、低成本推理和良好的效能。

LLM Challenges RetNet 透過引入多尺度保留 (MSR) 機制來應對這些挑戰，該機制是 Transformer 模型中常用的多頭注意力機制的替代方案。MSR 具有遞迴和並行的雙重形式，因此可以並行訓練模型，同時以遞迴方式進行推理。我們將在後面的章節中詳細探討 RetNet。

多尺度保留機制在三種計算正規化下執行：

並行表示： RetNet 的這一方面設計類似於 Transformer 中的自注意力，它使我們能夠高效地使用 GPU 訓練模型。
遞迴表示： 這種表示有助於高效推理，其記憶體和計算要求為 O(1) 複雜度。它顯著降低了部署成本和延遲，並透過消除傳統模型中常用的鍵值快取策略簡化了實現。
分塊遞迴表示： 第三種正規化解決了長序列建模的挑戰。它透過並行編碼每個區域性塊以提高計算速度，同時遞迴編碼全域性塊以最佳化 GPU 記憶體使用來實現這一點。

在訓練階段，該方法結合了並行和分塊遞迴表示，優化了 GPU 使用以實現快速計算，並且在計算效率和記憶體使用方面對長序列特別有效。在推理階段，使用遞迴表示，有利於自迴歸解碼。該方法有效地減少了記憶體使用和延遲，同時保持了相同的效能結果。

從語言到影像

RMT

論文《RMT: 保留網路與視覺 Transformer 的結合》提出了一種受 RetNet 架構啟發的新視覺骨幹網路。作者提出 RMT 透過引入顯式空間先驗並降低計算複雜度來增強 Vision Transformer (ViT)，這借鑑了 RetNet 的並行表示。這包括將 RetNet 的時間衰減適應到空間域，並使用基於曼哈頓距離的空間衰減矩陣以及注意力分解形式，以提高視覺任務的效率和可擴充套件性。

曼哈頓自注意力 (MaSA) MaSA 將自注意力機制與基於令牌之間曼哈頓距離的二維雙向空間衰減矩陣相結合。該矩陣會降低距離目標令牌更遠的令牌的注意力分數，使其能夠感知全域性資訊，同時根據距離改變注意力。
分解曼哈頓自注意力 (MaSAD) 這種機制將影像中的自注意力沿影像的水平和垂直軸分解，在不丟失先驗資訊的情況下保持空間衰減矩陣。這種分解允許曼哈頓自注意力 (MaSA) 以線性複雜度高效地建模全域性資訊，同時保留原始 MaSA 的感受野形狀。

然而，與原始 RetNet 不同，原始 RetNet 使用並行表示進行訓練，使用遞迴表示進行推理，而 RMT 使用 MaSA 機制執行這兩個過程。作者對 MaSA 和其他 RetNet 表示進行了比較，結果表明 MaSA 具有最高的吞吐量和最高的準確性。 MaSA vs Retention

ViR

另一項受 RetNet 架構啟發的工作是 ViR，如論文《ViR: 視覺保留網路》中所述。在該架構中，作者提出了一種具有重新設計的保留機制的通用視覺骨幹網路。他們透過利用保留網路的雙重並行和遞迴特性，證明 ViR 在影像吞吐量和記憶體消耗方面可以很好地擴充套件到更大的影像解析度。

ViR 的整體架構與 ViT 非常相似，只是它用多頭保留 (MHR) 取代了多頭注意力 (MHA)。這種 MHR 機制沒有任何門控函式，並且可以在並行、遞迴或分塊（並行和遞迴的混合）模式之間切換。ViR 的另一個不同之處在於，位置嵌入首先新增到補丁嵌入中，然後附加 [class] 令牌。

延伸閱讀

< > 在 GitHub 上更新

社群計算機視覺課程

視覺中的保留

什麼是保留網路

從語言到影像

RMT

ViR

延伸閱讀