混合視覺 Transformer (ViT Hybrid)

該模型目前處於維護模式，我們不接受任何更改其程式碼的新 PR。如果您在使用此模型時遇到任何問題，請重新安裝支援此模型的最新版本：v4.40.2。您可以透過執行以下命令進行安裝：pip install -U transformers==4.40.2。

概述

混合視覺 Transformer (ViT) 模型由 Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、Jakob Uszkoreit、Neil Houlsby 在一張圖片價值 16x16 個詞：用於大規模影像識別的 Transformer 中提出。這是第一篇成功在 ImageNet 上訓練 Transformer 編碼器的論文，與熟悉的卷積架構相比取得了非常好的結果。ViT hybrid 是純視覺 Transformer 的一個微小變體，它利用了卷積骨幹（具體來說是 BiT），其特徵用作 Transformer 的初始“標記”。

論文摘要如下：

雖然 Transformer 架構已成為自然語言處理任務的事實標準，但其在計算機視覺領域的應用仍然有限。在視覺領域，注意力要麼與卷積網路結合使用，要麼用於替代卷積網路的某些元件，同時保持其整體結構不變。我們表明，這種對 CNN 的依賴並非必要，直接應用於影像補丁序列的純 Transformer 在影像分類任務上可以表現得非常好。當在大量資料上進行預訓練並遷移到多箇中小型影像識別基準（ImageNet、CIFAR-100、VTAB 等）時，視覺 Transformer (ViT) 與最先進的卷積網路相比取得了優異的結果，同時訓練所需的計算資源也大大減少。

該模型由 nielsr 貢獻。原始程式碼（用 JAX 編寫）可在此處找到。

使用縮放點積注意力 (SDPA)

PyTorch 包含一個原生縮放點積注意力 (SDPA) 運算子，作為 torch.nn.functional 的一部分。此函式包含多種實現，可根據輸入和所用硬體進行應用。有關更多資訊，請參閱官方文件或 GPU 推理頁面。

當實現可用時，SDPA 預設用於 `torch>=2.1.1`，但你也可以在 `from_pretrained()` 中設定 `attn_implementation="sdpa"` 來明確請求使用 SDPA。

from transformers import ViTHybridForImageClassification
model = ViTHybridForImageClassification.from_pretrained("google/vit-hybrid-base-bit-384", attn_implementation="sdpa", torch_dtype=torch.float16)
...

為了獲得最佳加速效果，我們建議以半精度（例如 `torch.float16` 或 `torch.bfloat16`）載入模型。

在本地基準測試（A100-40GB，PyTorch 2.3.0，作業系統 Ubuntu 22.04）中，使用 float32 和 google/vit-hybrid-base-bit-384 模型，我們在推理過程中觀察到以下加速。

批次大小	平均推理時間（毫秒），eager 模式	平均推理時間（毫秒），sdpa 模型	加速，Sdpa / Eager (x)
1	29	18	1.61
2	26	18	1.44
4	25	18	1.39
8	34	24	1.42

資源

Hugging Face 官方和社群（由 🌎 標記）資源列表，幫助您開始使用 ViT Hybrid。

影像分類

ViTHybridForImageClassification 受此示例指令碼和 notebook 支援。
另請參閱：影像分類任務指南

如果您有興趣在此處提交資源，請隨時開啟 Pull Request，我們將對其進行審查！該資源最好能展示一些新內容，而不是重複現有資源。

ViTHybridConfig

class transformers.ViTHybridConfig

< 源 >

( backbone_config = None backbone = None use_pretrained_backbone = False use_timm_backbone = False backbone_kwargs = None hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 image_size = 224 patch_size = 1 num_channels = 3 backbone_featmap_shape = [1, 1024, 24, 24] qkv_bias = True **kwargs )

引數

backbone_config (Union[dict[str, Any], PretrainedConfig], 可選) — 骨幹網路配置的字典或骨幹網路的配置物件。
backbone (str, 可選) — 當 backbone_config 為 None 時使用的骨幹網路名稱。如果 use_pretrained_backbone 為 True，這將從 timm 或 transformers 庫載入相應的預訓練權重。如果 use_pretrained_backbone 為 False，這將載入骨幹網路的配置並用它初始化具有隨機權重的骨幹網路。
use_pretrained_backbone (bool, 可選, 預設為 False) — 是否使用骨幹網路的預訓練權重。
use_timm_backbone (bool, 可選, 預設為 False) — 是否從 timm 庫載入 backbone。如果為 False，則從 transformers 庫載入骨幹網路。
backbone_kwargs (dict, 可選) — 載入檢查點時要傳遞給 AutoBackbone 的關鍵字引數，例如 {'out_indices': (0, 1, 2, 3)}。如果設定了 backbone_config，則無法指定。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"selu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.0) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon。
image_size (int, 可選, 預設為 224) — 每張圖片的大小（解析度）。
patch_size (int, 可選, 預設為 1) — 每個補丁的大小（解析度）。
num_channels (int, 可選, 預設為 3) — 輸入通道數。
backbone_featmap_shape (list[int], 可選, 預設為 [1, 1024, 24, 24]) — 僅用於 hybrid 嵌入型別。骨幹網路的特徵圖形狀。
qkv_bias (bool, 可選, 預設為 True) — 是否在查詢、鍵和值中新增偏差。

這是用於儲存 ViTHybridModel 配置的配置類。它用於根據指定引數例項化 ViT Hybrid 模型，定義模型架構。使用預設值例項化配置將生成與 ViT Hybrid google/vit-hybrid-base-bit-384 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import ViTHybridConfig, ViTHybridModel

>>> # Initializing a ViT Hybrid vit-hybrid-base-bit-384 style configuration
>>> configuration = ViTHybridConfig()

>>> # Initializing a model (with random weights) from the vit-hybrid-base-bit-384 style configuration
>>> model = ViTHybridModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

ViTHybridImageProcessor

class transformers.ViTHybridImageProcessor

< 源 >

( do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.BICUBIC: 3> do_center_crop: bool = True crop_size: typing.Optional[dict[str, int]] = None do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_rgb: bool = True **kwargs )

引數

do_resize (bool, 可選, 預設為 True) — 是否將影像的（高度，寬度）尺寸調整為指定的 size。可透過 preprocess 方法中的 do_resize 覆蓋。
size (dict[str, int] 可選, 預設為 {"shortest_edge" -- 224}): 調整大小後圖像的大小。影像的最短邊將調整為 size["shortest_edge"]，最長邊將保持輸入寬高比。可透過 preprocess 方法中的 size 覆蓋。
resample (PILImageResampling, 可選, 預設為 PILImageResampling.BICUBIC) — 如果調整影像大小，使用的重取樣濾波器。可透過 preprocess 方法中的 resample 覆蓋。
do_center_crop (bool, 可選, 預設為 True) — 是否將影像中心裁剪到指定的 crop_size。可透過 preprocess 方法中的 do_center_crop 覆蓋。
crop_size (dict[str, int] 可選, 預設為 224) — 應用 center_crop 後輸出影像的大小。可透過 preprocess 方法中的 crop_size 覆蓋。
do_rescale (bool, 可選, 預設為 True) — 是否按指定的比例因子 rescale_factor 重新縮放影像。可透過 preprocess 方法中的 do_rescale 覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 如果重新縮放影像，使用的比例因子。可透過 preprocess 方法中的 rescale_factor 覆蓋。
do_normalize — 是否對影像進行歸一化。可透過 preprocess 方法中的 do_normalize 覆蓋。
image_mean (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_MEAN) — 用於影像歸一化的均值。這是一個浮點數或浮點數列表，長度與影像通道數相同。可以透過 preprocess 方法中的 image_mean 引數覆蓋。
image_std (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_STD) — 用於影像歸一化的標準差。這是一個浮點數或浮點數列表，長度與影像通道數相同。可以透過 preprocess 方法中的 image_std 引數覆蓋。
do_convert_rgb (bool, 可選, 預設為 True) — 是否將影像轉換為 RGB。

構建一個 ViT Hybrid 影像處理器。

預處理

< 源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample: Resampling = None do_center_crop: typing.Optional[bool] = None crop_size: typing.Optional[int] = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_rgb: typing.Optional[bool] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: typing.Optional[transformers.image_utils.ChannelDimension] = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None **kwargs )

引數

images (ImageInput) — 要預處理的影像。期望單個或批次影像，畫素值範圍為 0 到 255。如果傳入畫素值在 0 到 1 之間的影像，請設定 do_rescale=False。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 調整大小後圖像的尺寸。影像的最短邊調整為 size[“shortest_edge”]，最長邊調整為保持輸入寬高比。
resample (int, 可選, 預設為 self.resample) — 調整影像大小時使用的重取樣濾波器。可以是列舉 PILImageResampling 之一。僅當 do_resize 設定為 True 時有效。
do_center_crop (bool, 可選, 預設為 self.do_center_crop) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], 可選, 預設為 self.crop_size) — 中心裁剪的尺寸。僅當 do_center_crop 設定為 True 時有效。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否重新縮放影像。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 do_rescale 設定為 True，則按此重新縮放因子調整影像。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 用於歸一化的影像均值。僅當 do_normalize 設定為 True 時有效。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 用於歸一化的影像標準差。僅當 do_normalize 設定為 True 時有效。
do_convert_rgb (bool, 可選, 預設為 self.do_convert_rgb) — 是否將影像轉換為 RGB。
return_tensors (str 或 TensorType, 可選) — 要返回的張量型別。可以是以下之一：
- 未設定：返回 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf'：返回 tf.Tensor 批次。
- TensorType.PYTORCH 或 'pt'：返回 torch.Tensor 批次。
- TensorType.NUMPY 或 'np'：返回 np.ndarray 批次。
- TensorType.JAX 或 'jax'：返回 jax.numpy.ndarray 批次。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
- 未設定：預設為輸入影像的通道維度格式。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，通道維度格式將從輸入影像推斷。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
- "none" 或 ChannelDimension.NONE：影像為 (height, width) 格式。

預處理一張或一批影像。

ViTHybridModel

類 transformers.ViTHybridModel

< 源 >

( config: ViTHybridConfig add_pooling_layer: bool = True use_mask_token: bool = False )

引數

config (ViTHybridConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法載入模型權重。

裸 ViT Hybrid 模型變壓器，輸出原始隱藏狀態，頂部沒有任何特定頭部。此模型是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件中所有與一般用法和行為相關的事項。

前向

< 源 >

( pixel_values: typing.Optional[torch.Tensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor 形狀為 (batch_size, num_channels, height, width)) — 畫素值。畫素值可以透過 AutoImageProcessor 獲取。有關詳細資訊，請參閱 ViTHybridImageProcessor.call()。
head_mask (torch.FloatTensor 形狀為 (num_heads,) 或 (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被掩蓋，
- 0 表示頭部被掩蓋。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。
bool_masked_pos (torch.BoolTensor 形狀為 (batch_size, num_patches), 可選) — 布林掩碼位置。指示哪些補丁被掩碼 (1)，哪些未被掩碼 (0)。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (ViTHybridConfig) 和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor 形狀為 (batch_size, hidden_size)) — 序列第一個 token（分類 token）的最後一層隱藏狀態，經過輔助預訓練任務所用層的進一步處理。例如，對於 BERT 系列模型，這會返回經過線性層和 tanh 啟用函式處理後的分類 token。線性層權重在預訓練期間透過下一個句子預測（分類）目標進行訓練。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則一個用於嵌入輸出，加上一個用於每個層輸出）形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個）形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ViTHybridModel 前向方法，覆蓋 __call__ 特殊方法。

儘管前向傳播的實現需要在該函式中定義，但此後應呼叫 Module 例項而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則默默地忽略它們。

示例

>>> from transformers import AutoImageProcessor, ViTHybridModel
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("google/vit-hybrid-base-bit-384")
>>> model = ViTHybridModel.from_pretrained("google/vit-hybrid-base-bit-384")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 197, 768]

ViTHybridForImageClassification

類 transformers.ViTHybridForImageClassification

< 源 >

( config: ViTHybridConfig )

引數

config (ViTHybridConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法載入模型權重。

ViT Hybrid 模型變壓器，頂部帶有影像分類頭（[CLS] token 最終隱藏狀態頂部的線性層），例如用於 ImageNet。

此模型是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件中所有與一般用法和行為相關的事項。

前向

< 源 >

( pixel_values: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor 形狀為 (batch_size, num_channels, height, width)) — 畫素值。畫素值可以透過 AutoImageProcessor 獲取。有關詳細資訊，請參閱 ViTHybridImageProcessor.call()。
head_mask (torch.FloatTensor 形狀為 (num_heads,) 或 (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被掩蓋，
- 0 表示頭部被掩蓋。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。
labels (torch.LongTensor 形狀為 (batch_size,), 可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方誤差損失）；如果 config.num_labels > 1，則計算分類損失（交叉熵損失）。

transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.ImageClassifierOutput 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (ViTHybridConfig) 和輸入的不同元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則一個用於嵌入輸出，加上一個用於每個階段輸出）形狀為 (batch_size, sequence_length, hidden_size)。模型在每個階段輸出處的隱藏狀態（也稱為特徵圖）。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個）形狀為 (batch_size, num_heads, patch_size, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ViTHybridForImageClassification 前向方法，覆蓋 __call__ 特殊方法。

示例

>>> from transformers import AutoImageProcessor, ViTHybridForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("google/vit-hybrid-base-bit-384")
>>> model = ViTHybridForImageClassification.from_pretrained("google/vit-hybrid-base-bit-384")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat

< > 在 GitHub 上更新