膨脹鄰域注意力Transformer

概述

DiNAT 由 Ali Hassani 和 Humphrey Shi 在 Dilated Neighborhood Attention Transformer 中提出。

它透過新增膨脹鄰域注意力模式來捕獲全域性上下文，從而擴充套件 NAT，並在此基礎上顯示出顯著的效能改進。

論文摘要如下：

Transformer 正迅速成為跨模態、領域和任務中應用最廣泛的深度學習架構之一。在視覺領域，除了對普通 Transformer 的持續努力外，分層 Transformer 也因其效能和易於整合到現有框架中而受到廣泛關注。這些模型通常採用區域性注意力機制，例如滑動視窗鄰域注意力（NA）或 Swin Transformer 的移位視窗自注意力。雖然在降低自注意力二次複雜度方面有效，但區域性注意力削弱了自注意力最理想的兩個特性：長距離相互依賴建模和全域性感受野。在本文中，我們引入了膨脹鄰域注意力（DiNA），它是 NA 的一種自然、靈活且高效的擴充套件，可以捕獲更多全域性上下文並以不增加額外成本的方式指數級擴充套件感受野。NA 的區域性注意力和 DiNA 的稀疏全域性注意力相互補充，因此我們引入了膨脹鄰域注意力 Transformer（DiNAT），這是一種基於兩者的新型分層視覺 Transformer。DiNAT 變體在 NAT、Swin 和 ConvNeXt 等強大基線上取得了顯著改進。我們的大型模型在 COCO 目標檢測中比其 Swin 對應模型快 1.5% 的 box AP，在 COCO 例項分割中快 1.3% 的 mask AP，在 ADE20K 語義分割中快 1.1% 的 mIoU。結合新框架，我們的大型變體是 COCO（58.2 PQ）和 ADE20K（48.5 PQ）上最新的全景分割模型，以及 Cityscapes（44.5 AP）和 ADE20K（35.4 AP）上的例項分割模型（無額外資料）。它還在 ADE20K（58.2 mIoU）上與最新的專用語義分割模型相匹配，並在 Cityscapes（84.5 mIoU）上排名第二（無額外資料）。

具有不同膨脹值的鄰域注意力。摘自原始論文。

該模型由 Ali Hassani 貢獻。原始程式碼可以在這裡找到。

使用技巧

DiNAT 可用作*骨幹網路*。當 output_hidden_states = True 時，它將同時輸出 hidden_states 和 reshaped_hidden_states。reshaped_hidden_states 的形狀為 (batch, num_channels, height, width)，而不是 (batch_size, height, width, num_channels)。

備註

DiNAT 依賴於 NATTEN 的鄰域注意力（Neighborhood Attention）和膨脹鄰域注意力（Dilated Neighborhood Attention）實現。您可以透過參考 shi-labs.com/natten 安裝預構建的 Linux 輪子，或透過執行 pip install natten 在您的系統上構建。請注意，後者可能需要一段時間才能編譯。NATTEN 尚不支援 Windows 裝置。
目前僅支援補丁大小為 4。

資源

一份官方 Hugging Face 和社群（由 🌎 表示）資源列表，可幫助您開始使用 DiNAT。

影像分類

DinatForImageClassification 由此示例指令碼和筆記本支援。
另請參閱：影像分類任務指南

如果您有興趣在此處提交資源，請隨時開啟 Pull Request，我們將對其進行審查！該資源最好能展示一些新內容，而不是重複現有資源。

DinatConfig

class transformers.DinatConfig

< 原始檔 >

( patch_size = 4 num_channels = 3 embed_dim = 64 depths = [3, 4, 6, 5] num_heads = [2, 4, 8, 16] kernel_size = 7 dilations = [[1, 8, 1], [1, 4, 1, 4], [1, 2, 1, 2, 1, 2], [1, 1, 1, 1, 1]] mlp_ratio = 3.0 qkv_bias = True hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 drop_path_rate = 0.1 hidden_act = 'gelu' initializer_range = 0.02 layer_norm_eps = 1e-05 layer_scale_init_value = 0.0 out_features = None out_indices = None **kwargs )

引數

patch_size (int, 可選, 預設為 4) — 每個塊的大小（解析度）。注意：目前僅支援塊大小為 4。
num_channels (int, 可選, 預設為 3) — 輸入通道數。
embed_dim (int, 可選, 預設為 64) — 塊嵌入的維度。
depths (list[int], 可選, 預設為 [3, 4, 6, 5]) — 編碼器每個層級的層數。
num_heads (list[int], 可選, 預設為 [2, 4, 8, 16]) — Transformer 編碼器每個層中的注意力頭數。
kernel_size (int, 可選, 預設為 7) — 鄰域注意力核大小。
dilations (list[list[int]], 可選, 預設為 [[1, 8, 1], [1, 4, 1, 4], [1, 2, 1, 2, 1, 2], [1, 1, 1, 1, 1]]) — Transformer 編碼器中每個 NA 層的膨脹值。
mlp_ratio (float, 可選, 預設為 3.0) — MLP 隱藏維度與嵌入維度的比率。
qkv_bias (bool, 可選, 預設為 True) — 是否應向查詢、鍵和值新增可學習的偏差。
hidden_dropout_prob (float, 可選, 預設為 0.0) — 嵌入層和編碼器中所有全連線層的 dropout 機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
drop_path_rate (float, 可選, 預設為 0.1) — 隨機深度率。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器中的非線性啟用函式（函式或字串）。如果為字串，支援 "gelu"、"relu"、"selu" 和 "gelu_new"。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
layer_norm_eps (float, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。
layer_scale_init_value (float, 可選, 預設為 0.0) — 層縮放的初始值。如果 <=0 則停用。
out_features (list[str], 可選) — 如果用作骨幹網路，則為要輸出的特徵列表。可以是 "stem"、"stage1"、"stage2" 等（取決於模型有多少個階段）。如果未設定且 out_indices 已設定，則預設為相應的階段。如果兩者都未設定，則預設為最後一個階段。必須與 stage_names 屬性中定義的順序相同。
out_indices (list[int], 可選) — 如果用作骨幹網路，則為要輸出的特徵索引列表。可以是 0、1、2 等（取決於模型有多少個階段）。如果未設定且 out_features 已設定，則預設為相應的階段。如果兩者都未設定，則預設為最後一個階段。必須與 stage_names 屬性中定義的順序相同。

這是用於儲存 DinatModel 配置的配置類。它用於根據指定的引數例項化 Dinat 模型，定義模型架構。使用預設值例項化配置將生成與 Dinat shi-labs/dinat-mini-in1k-224 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import DinatConfig, DinatModel

>>> # Initializing a Dinat shi-labs/dinat-mini-in1k-224 style configuration
>>> configuration = DinatConfig()

>>> # Initializing a model (with random weights) from the shi-labs/dinat-mini-in1k-224 style configuration
>>> model = DinatModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

DinatModel

class transformers.DinatModel

< 原始檔 >

( config add_pooling_layer = True )

引數

config (DinatModel) — 包含模型所有引數的模型配置類。使用配置檔案初始化並不會載入與模型相關的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。
add_pooling_layer (bool, 可選, 預設為 True) — 是否新增池化層

裸 Dinat 模型，輸出原始隱藏狀態，頂部沒有任何特定頭部。

該模型繼承自 PreTrainedModel。請檢視超類文件，瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

前向傳播

< 原始檔 >

( pixel_values: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.dinat.modeling_dinat.DinatModelOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應輸入影像的張量。畫素值可以使用 {image_processor_class} 獲得。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是純元組。

transformers.models.dinat.modeling_dinat.DinatModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.dinat.modeling_dinat.DinatModelOutput 或 torch.FloatTensor 元組（如果傳遞 return_dict=False 或 config.return_dict=False 時），包含根據配置 (DinatConfig) 和輸入而變化的各種元素。

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選，預設為 None) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor，形狀為 (batch_size, hidden_size)，可選，當傳遞 add_pooling_layer=True 時返回) — 最後一層隱藏狀態的平均池化。
hidden_states (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 一個用於每一層輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
reshaped_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層輸出 + 一個用於每個階段輸出），形狀為 (batch_size, hidden_size, height, width)。

模型在每層輸出處的隱藏狀態，以及重新調整以包含空間維度的初始嵌入輸出。

transformers.DinatModel 的前向傳播方法，覆蓋了 __call__ 特殊方法。

雖然前向傳播的實現必須在此函式中定義，但在此之後應呼叫 Module 例項，而不是直接呼叫此函式，因為前者負責執行預處理和後處理步驟，而後者則會默默地忽略它們。

示例

DinatForImageClassification

class transformers.DinatForImageClassification

< 原始檔 >

( config )

引數

config (DinatForImageClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化並不會載入與模型相關的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Dinat 模型 Transformer，頂部帶有一個影像分類頭（[CLS] 標記最終隱藏狀態頂部的線性層），例如用於 ImageNet。

該模型繼承自 PreTrainedModel。請檢視超類文件，瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

前向傳播

< 原始檔 >

( pixel_values: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.dinat.modeling_dinat.DinatImageClassifierOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應輸入影像的張量。畫素值可以使用 {image_processor_class} 獲得。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
labels (torch.LongTensor，形狀為 (batch_size,)，可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方誤差損失）；如果 config.num_labels > 1，則計算分類損失（交叉熵損失）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是純元組。

transformers.models.dinat.modeling_dinat.DinatImageClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.dinat.modeling_dinat.DinatImageClassifierOutput 或 torch.FloatTensor 元組（如果傳遞 return_dict=False 或 config.return_dict=False 時），包含根據配置 (DinatConfig) 和輸入而變化的各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 一個用於每一層輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
reshaped_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層輸出 + 一個用於每個階段輸出），形狀為 (batch_size, hidden_size, height, width)。

模型在每層輸出處的隱藏狀態，以及重新調整以包含空間維度的初始嵌入輸出。

transformers.DinatForImageClassification 的前向傳播方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoImageProcessor, DinatForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("shi-labs/dinat-mini-in1k-224")
>>> model = DinatForImageClassification.from_pretrained("shi-labs/dinat-mini-in1k-224")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...

< > 在 GitHub 上更新

Transformers

膨脹鄰域注意力Transformer

概述

使用技巧

資源

DinatConfig

class transformers.DinatConfig

DinatModel

class transformers.DinatModel

前向傳播

DinatForImageClassification

class transformers.DinatForImageClassification

前向傳播