MobileViTV2

概述

MobileViTV2 模型由 Sachin Mehta 和 Mohammad Rastegari 在論文 Separable Self-attention for Mobile Vision Transformers 中提出。

MobileViTV2 是 MobileViT 的第二個版本，透過將 MobileViT 中的多頭自注意力替換為可分離自注意力構建而成。

論文摘要如下：

移動視覺 Transformer（MobileViT）可以在包括分類和檢測在內的多個移動視覺任務上達到最先進的效能。儘管這些模型引數較少，但與基於卷積神經網路的模型相比，它們的延遲較高。MobileViT 的主要效率瓶頸在於 Transformer 中的多頭自注意力（MHA），其時間複雜度相對於 token（或 patch）數量 k 為 O(k²)。此外，MHA 需要昂貴的運算（例如，批處理矩陣乘法）來計算自注意力，這影響了在資源受限裝置上的延遲。本文介紹了一種具有線性複雜度的可分離自注意力方法，即 O(k)。該方法的一個簡單而有效的特點是它使用逐元素操作來計算自注意力，使其成為資源受限裝置的理想選擇。改進後的模型 MobileViTV2，在包括 ImageNet 物件分類和 MS-COCO 物件檢測在內的多個移動視覺任務上達到了最先進水平。MobileViTV2 擁有約三百萬個引數，在 ImageNet 資料集上實現了 75.6% 的 top-1 準確率，效能超過 MobileViT 約 1%，同時在移動裝置上的執行速度快 3.2 倍。

該模型由 shehan97 貢獻。原始程式碼可以在這裡找到。

使用技巧

MobileViTV2 更像一個 CNN 而不是 Transformer 模型。它不處理序列資料，而是處理批次的影像。與 ViT 不同，它沒有嵌入層。主幹模型輸出一個特徵圖。
可以使用 MobileViTImageProcessor 為模型準備影像。請注意，如果您自己進行預處理，預訓練的檢查點期望影像的畫素順序為 BGR（而不是 RGB）。
可用的影像分類檢查點是在 ImageNet-1k（也稱為 ILSVRC 2012，一個包含 130 萬張影像和 1000 個類別的資料集）上預訓練的。
分割模型使用 DeepLabV3 頭。可用的語義分割檢查點是在 PASCAL VOC 上預訓練的。

MobileViTV2Config

class transformers.MobileViTV2Config

< 原始碼 >

( num_channels = 3 image_size = 256 patch_size = 2 expand_ratio = 2.0 hidden_act = 'swish' conv_kernel_size = 3 output_stride = 32 classifier_dropout_prob = 0.1 initializer_range = 0.02 layer_norm_eps = 1e-05 aspp_out_channels = 512 atrous_rates = [6, 12, 18] aspp_dropout_prob = 0.1 semantic_loss_ignore_index = 255 n_attn_blocks = [2, 4, 3] base_attn_unit_dims = [128, 192, 256] width_multiplier = 1.0 ffn_multiplier = 2 attn_dropout = 0.0 ffn_dropout = 0.0 **kwargs )

引數

num_channels (int, 可選, 預設為 3) — 輸入通道的數量。
image_size (int, 可選, 預設為 256) — 每張影像的大小（解析度）。
patch_size (int, 可選, 預設為 2) — 每個 patch 的大小（解析度）。
expand_ratio (float, 可選, 預設為 2.0) — MobileNetv2 層的擴充套件因子。
hidden_act (str 或 function, 可選, 預設為 "swish") — Transformer 編碼器和卷積層中的非線性啟用函式（函式或字串）。
conv_kernel_size (int, 可選, 預設為 3) — MobileViTV2 層中卷積核的大小。
output_stride (int, 可選, 預設為 32) — 輸出的空間解析度與輸入影像解析度的比率。
classifier_dropout_prob (float, 可選, 預設為 0.1) — 附加分類器的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon。
aspp_out_channels (int, 可選, 預設為 512) — 用於語義分割的 ASPP 層中的輸出通道數。
atrous_rates (list[int], 可選, 預設為 [6, 12, 18]) — 用於語義分割的 ASPP 層中的擴張（atrous）因子。
aspp_dropout_prob (float, 可選, 預設為 0.1) — 用於語義分割的 ASPP 層的 dropout 比率。
semantic_loss_ignore_index (int, 可選, 預設為 255) — 語義分割模型的損失函式忽略的索引。
n_attn_blocks (list[int], 可選, 預設為 [2, 4, 3]) — 每個 MobileViTV2Layer 中的注意力塊數量。
base_attn_unit_dims (list[int], 可選, 預設為 [128, 192, 256]) — 每個 MobileViTV2Layer 中注意力塊維度的基礎乘數。
width_multiplier (float, 可選, 預設為 1.0) — MobileViTV2 的寬度乘數。
ffn_multiplier (int, 可選, 預設為 2) — MobileViTV2 的 FFN 乘數。
attn_dropout (float, 可選, 預設為 0.0) — 注意力層中的 dropout。
ffn_dropout (float, 可選, 預設為 0.0) — FFN 層之間的 dropout。

這是用於儲存 MobileViTV2Model 配置的配置類。它用於根據指定的引數例項化 MobileViTV2 模型，定義模型架構。使用預設值例項化配置將產生與 MobileViTV2 apple/mobilevitv2-1.0 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import MobileViTV2Config, MobileViTV2Model

>>> # Initializing a mobilevitv2-small style configuration
>>> configuration = MobileViTV2Config()

>>> # Initializing a model from the mobilevitv2-small style configuration
>>> model = MobileViTV2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

MobileViTV2Model

class transformers.MobileViTV2Model

< 原始碼 >

( config: MobileViTV2Config expand_output: bool = True )

引數

config (MobileViTV2Config) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請查閱 from_pretrained() 方法來載入模型權重。
expand_output (bool, 可選, 預設為 True) — 是否擴充套件模型的輸出。如果為 True，模型將輸出池化特徵以及隱藏狀態。如果為 False，則只返回隱藏狀態。

裸 Mobilevitv2 模型，輸出原始隱藏狀態，頂部沒有任何特定的頭。

該模型繼承自 PreTrainedModel。請檢視超類的文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< 原始碼 >

( pixel_values: typing.Optional[torch.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.Tensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參見返回的張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通的元組。

transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention 或一個 torch.FloatTensor 的元組（如果傳遞 return_dict=False 或當 config.return_dict=False 時），包含各種元素，具體取決於配置（MobileViTV2Config）和輸入。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, num_channels, height, width)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor, 形狀為 (batch_size, hidden_size)) — 經過空間維度池化操作後的最後一層隱藏狀態。
hidden_states (tuple(torch.FloatTensor), 可選, 在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 每個層的輸出各一個），形狀為 (batch_size, num_channels, height, width)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

MobileViTV2Model 的 forward 方法，重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理前處理和後處理步驟，而後者會靜默地忽略它們。

示例

MobileViTV2ForImageClassification

class transformers.MobileViTV2ForImageClassification

< 原始碼 >

( config: MobileViTV2Config )

引數

config (MobileViTV2Config) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請查閱 from_pretrained() 方法來載入模型權重。

帶有影像分類頭的 MobileViTV2 模型（在池化特徵之上加一個線性層），例如用於 ImageNet。

該模型繼承自 PreTrainedModel。請檢視超類的文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< 原始碼 >

( pixel_values: typing.Optional[torch.Tensor] = None output_hidden_states: typing.Optional[bool] = None labels: typing.Optional[torch.Tensor] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.Tensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參見返回的張量下的 hidden_states。
labels (torch.LongTensor，形狀為 (batch_size,)，可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失）。如果 config.num_labels > 1，則計算分類損失（交叉熵）。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通的元組。

transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或一個 torch.FloatTensor 的元組（如果傳遞 return_dict=False 或當 config.return_dict=False 時），包含各種元素，具體取決於配置（MobileViTV2Config）和輸入。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 每個階段的輸出各一個），形狀為 (batch_size, num_channels, height, width)。模型在每個階段輸出的隱藏狀態（也稱為特徵圖）。

MobileViTV2ForImageClassification 的 forward 方法，重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理前處理和後處理步驟，而後者會靜默地忽略它們。

示例

>>> from transformers import AutoImageProcessor, MobileViTV2ForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("apple/mobilevitv2-1.0")
>>> model = MobileViTV2ForImageClassification.from_pretrained("apple/mobilevitv2-1.0")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...

MobileViTV2ForSemanticSegmentation

class transformers.MobileViTV2ForSemanticSegmentation

< 源 >

( config: MobileViTV2Config )

引數

config (MobileViTV2Config) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

MobileViTV2 模型，其頂部帶有一個語義分割頭，例如用於 Pascal VOC 資料集。

該模型繼承自 PreTrainedModel。請檢視超類的文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< 源 >

( pixel_values: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SemanticSegmenterOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.Tensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 與輸入影像對應的張量。畫素值可以使用 {image_processor_class} 獲取。更多詳情請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
labels (torch.LongTensor，形狀為 (batch_size, height, width), 可選) — 用於計算損失的真實語義分割圖。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels > 1，則會計算分類損失（交叉熵）。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.SemanticSegmenterOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.SemanticSegmenterOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或 config.return_dict=False），根據配置 (MobileViTV2Config) 和輸入包含不同的元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels, logits_height, logits_width) 的 torch.FloatTensor) — 每個畫素的分類分數。

返回的 logits 不一定與作為輸入傳遞的 pixel_values 具有相同的大小。這是為了避免當用戶需要將 logits 調整到原始影像大小作為後處理時進行兩次插值而損失一些質量。您應該始終檢查 logits 的形狀並根據需要調整大小。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，然後是每一層的輸出），形狀為 (batch_size, patch_size, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, patch_size, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

MobileViTV2ForSemanticSegmentation 的前向方法，覆蓋了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理前處理和後處理步驟，而後者會靜默地忽略它們。

示例

>>> import requests
>>> import torch
>>> from PIL import Image
>>> from transformers import AutoImageProcessor, MobileViTV2ForSemanticSegmentation

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("apple/mobilevitv2-1.0-imagenet1k-256")
>>> model = MobileViTV2ForSemanticSegmentation.from_pretrained("apple/mobilevitv2-1.0-imagenet1k-256")

>>> inputs = image_processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> # logits are of shape (batch_size, num_labels, height, width)
>>> logits = outputs.logits

< > 在 GitHub 上更新