Transformers

( vocab_size = 30522 type_vocab_size = 2 modality_type_vocab_size = 2 max_position_embeddings = 40 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 image_size = 384 patch_size = 32 num_channels = 3 qkv_bias = True max_image_length = -1 tie_word_embeddings = False num_images = -1 **kwargs )

引數

vocab_size (int, 可選, 預設為 30522) — 模型文字部分的詞彙表大小。定義了在呼叫 ViltModel 時，可以透過 `inputs_ids` 表示的不同標記的數量。
type_vocab_size (int, 可選, 預設為 2) — 在呼叫 ViltModel 時傳遞的 `token_type_ids` 的詞彙表大小。這在編碼文字時使用。
modality_type_vocab_size (int, 可選, 預設為 2) — 在呼叫 ViltModel 時傳遞的模態詞彙表大小。這在連線文字和影像模態的嵌入後使用。
max_position_embeddings (int, 可選, 預設為 40) — 該模型可能使用的最大序列長度。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，支援 `"gelu"`、`"relu"`、`"selu"` 和 `"gelu_new"`。
hidden_dropout_prob (float, 可選, 預設為 0.0) — 嵌入、編碼器和池化器中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.0) — 注意力機率的丟棄率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon。
image_size (int, 可選, 預設為 384) — 每個影像的大小（解析度）。
patch_size (int, 可選, 預設為 32) — 每個影像塊的大小（解析度）。
num_channels (int, 可選, 預設為 3) — 輸入通道的數量。
qkv_bias (bool, 可選, 預設為 `True`) — 是否為查詢、鍵和值新增偏置。
max_image_length (int, 可選, 預設為 -1) — Transformer 編碼器接受的最大影像塊數量。如果設定為正整數，編碼器將最多采樣 `max_image_length` 個影像塊。如果設定為 -1，則不考慮此引數。
num_images (int, 可選, 預設為 -1) — 用於自然語言視覺推理的影像數量。如果設定為正整數，ViltForImagesAndTextClassification 將用它來定義分類器頭。

這是一個用於儲存 `ViLTModel` 配置的配置類。它用於根據指定的引數例項化一個 ViLT 模型，定義模型架構。使用預設值例項化配置將產生與 ViLT dandelin/vilt-b32-mlm 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import ViLTModel, ViLTConfig

>>> # Initializing a ViLT dandelin/vilt-b32-mlm style configuration
>>> configuration = ViLTConfig()

>>> # Initializing a model from the dandelin/vilt-b32-mlm style configuration
>>> model = ViLTModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

ViltFeatureExtractor

class transformers.ViltFeatureExtractor

( *args **kwargs )

call

( images **kwargs )

預處理單張或批次影像。

ViltImageProcessor

class transformers.ViltImageProcessor

( do_resize: bool = True size: typing.Optional[dict[str, int]] = None size_divisor: int = 32 resample: Resampling = <Resampling.BICUBIC: 3> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: bool = True **kwargs )

引數

do_resize (bool, 可選, 預設為 `True`) — 是否將影像的（高度，寬度）尺寸調整為指定的 `size`。可以在 `preprocess` 方法中透過 `do_resize` 引數覆蓋。
size (dict[str, int] 可選, 預設為 `{"shortest_edge" -- 384}`): 將輸入影像的短邊調整為 `size["shortest_edge"]`。長邊將被限制在 `int((1333 / 800) * size["shortest_edge"])` 以下，同時保持長寬比。僅在 `do_resize` 設定為 `True` 時有效。可以在 `preprocess` 方法中透過 `size` 引數覆蓋。
size_divisor (int, 可選, 預設為 32) — 確保高度和寬度都可以被其整除的大小。僅在 `do_resize` 設定為 `True` 時有效。可以在 `preprocess` 方法中透過 `size_divisor` 引數覆蓋。
resample (PILImageResampling, 可選, 預設為 `Resampling.BICUBIC`) — 如果調整影像大小，使用的重取樣過濾器。僅在 `do_resize` 設定為 `True` 時有效。可以在 `preprocess` 方法中透過 `resample` 引數覆蓋。
do_rescale (bool, 可選, 預設為 True) — 是否透過指定的縮放比例 rescale_factor 對影像進行縮放。可以在 preprocess 方法中使用 do_rescale 引數進行覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 如果對影像進行縮放，則使用的縮放因子。僅當 do_rescale 設定為 True 時有效。可以在 preprocess 方法中使用 rescale_factor 引數進行覆蓋。
do_normalize (bool, 可選, 預設為 True) — 是否對影像進行歸一化。可以在 preprocess 方法中使用 do_normalize 引數進行覆蓋。可以在 preprocess 方法中使用 do_normalize 引數進行覆蓋。
image_mean (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_MEAN) — 如果對影像進行歸一化，則使用的均值。這是一個浮點數或浮點數列表，其長度與影像中的通道數相同。可以在 preprocess 方法中使用 image_mean 引數進行覆蓋。可以在 preprocess 方法中使用 image_mean 引數進行覆蓋。
image_std (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_STD) — 如果對影像進行歸一化，則使用的標準差。這是一個浮點數或浮點數列表，其長度與影像中的通道數相同。可以在 preprocess 方法中使用 image_std 引數進行覆蓋。可以在 preprocess 方法中使用 image_std 引數進行覆蓋。
do_pad (bool, 可選, 預設為 True) — 是否將影像填充到批次中影像的 (max_height, max_width)。可以在 preprocess 方法中使用 do_pad 引數進行覆蓋。

構建一個 ViLT 影像處理器。

preprocess

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None size_divisor: typing.Optional[int] = None resample: Resampling = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )

引數

images (ImageInput) — 待預處理的影像。需要單個或一批畫素值在 0 到 255 範圍內的影像。如果傳入的影像畫素值在 0 到 1 之間，請設定 do_rescale=False。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 控制 `resize` 後圖像的大小。影像的最短邊被調整為 `size["shortest_edge"]`，同時保持縱橫比。如果調整大小後圖像的最長邊大於 `int(size["shortest_edge"] * (1333 / 800))`，則再次調整影像大小，使最長邊等於 `int(size["shortest_edge"] * (1333 / 800))`。
size_divisor (int, 可選, 預設為 self.size_divisor) — 影像被調整到該值的倍數大小。
resample (PILImageResampling, 可選, 預設為 self.resample) — 如果調整影像大小，則使用的重取樣濾波器。僅當 do_resize 設定為 True 時有效。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否將影像值縮放到 [0 - 1] 之間。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 `do_rescale` 設定為 `True`，則用於縮放影像的縮放因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 如果 `do_normalize` 設定為 `True`，則用於歸一化影像的均值。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 如果 `do_normalize` 設定為 `True`，則用於歸一化影像的標準差。
do_pad (bool, 可選, 預設為 self.do_pad) — 是否將影像填充到批次中的 (max_height, max_width)。如果為 `True`，則還會建立並返回一個畫素掩碼。
return_tensors (str 或 TensorType, 可選) — 要返回的張量型別。可以是以下之一：
- 未設定：返回 `np.ndarray` 列表。
- TensorType.TENSORFLOW 或 'tf'：返回 `tf.Tensor` 型別的批次。
- TensorType.PYTORCH 或 'pt'：返回 `torch.Tensor` 型別的批次。
- TensorType.NUMPY 或 'np'：返回 `np.ndarray` 型別的批次。
- TensorType.JAX 或 'jax'：返回 `jax.numpy.ndarray` 型別的批次。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，則從輸入影像中推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。

預處理一張或一批影像。

ViltImageProcessorFast

class transformers.ViltImageProcessorFast

( **kwargs: typing_extensions.Unpack[transformers.image_processing_utils_fast.DefaultFastImageProcessorKwargs] )

構建一個快速的 Vilt 影像處理器。

preprocess

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.image_processing_utils_fast.DefaultFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>

引數

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 待預處理的影像。需要單個或一批畫素值在 0 到 255 範圍內的影像。如果傳入的影像畫素值在 0 到 1 之間，請設定 `do_rescale=False`。
do_resize (bool, 可選) — 是否調整影像大小。
size (dict[str, int], 可選) — 描述模型的最大輸入尺寸。
default_to_square (bool, 可選) — 當 size 是一個整數時，調整大小時是否預設為正方形影像。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像大小，則使用的重取樣濾波器。這可以是 `PILImageResampling` 列舉之一。僅當 `do_resize` 設定為 `True` 時有效。
do_center_crop (bool, 可選) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], 可選) — 應用 `center_crop` 後輸出影像的大小。
do_rescale (bool, 可選) — 是否縮放影像。
rescale_factor (Union[int, float, NoneType]) — 如果 `do_rescale` 設定為 `True`，則用於縮放影像的縮放因子。
do_normalize (bool, 可選) — 是否對影像進行歸一化。
image_mean (Union[float, list[float], NoneType]) — 用於歸一化的影像均值。僅當 `do_normalize` 設定為 `True` 時有效。
image_std (Union[float, list[float], NoneType]) — 用於歸一化的影像標準差。僅當 `do_normalize` 設定為 `True` 時有效。
do_convert_rgb (bool, 可選) — 是否將影像轉換為 RGB。
return_tensors (Union[str, ~utils.generic.TensorType, NoneType]) — 如果設定為 `pt`，則返回堆疊的張量，否則返回張量列表。
data_format (~image_utils.ChannelDimension, 可選) — 僅支援 `ChannelDimension.FIRST`。為與慢速處理器相容而新增。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定，則從輸入影像中推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。
device (torch.device, 可選) — 處理影像的裝置。如果未設定，則從輸入影像中推斷裝置。
disable_grouping (bool, 可選) — 是否停用按大小對影像進行分組，以便單獨處理而不是分批處理。如果為 None，則如果影像在 CPU 上，將設定為 True，否則為 False。此選擇基於經驗觀察，詳見此處：https://github.com/huggingface/transformers/pull/38157

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/陣列/張量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`，以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

ViltProcessor

class transformers.ViltProcessor

( image_processor = None tokenizer = None **kwargs )

引數

image_processor (ViltImageProcessor, 可選) — ViltImageProcessor 的一個例項。影像處理器是必需的輸入。
tokenizer (BertTokenizerFast, 可選) — [`BertTokenizerFast`] 的一個例項。分詞器是必需的輸入。

構建一個 ViLT 處理器，它將 BERT 分詞器和 ViLT 影像處理器包裝成單個處理器。

ViltProcessor 提供 ViltImageProcessor 和 BertTokenizerFast 的所有功能。有關更多資訊，請參閱 call() 和 `decode()` 的文件字串。

call

( images text: typing.Union[str, list[str], list[list[str]]] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = None max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None **kwargs )

此方法使用 ViltImageProcessor.__call__() 方法為模型準備影像，並使用 BertTokenizerFast.__call__() 為模型準備文字。

有關更多資訊，請參閱上述兩種方法的文件字串。

ViltModel

class transformers.ViltModel

( config add_pooling_layer = True )

引數

config (ViltModel) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。
add_pooling_layer (bool, optional, 預設為 True) — 是否新增一個池化層

裸 Vilt 模型，輸出原始的隱藏狀態，頂部沒有任何特定的頭。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None image_token_type_idx: typing.Optional[int] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), optional) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.FloatTensor，形狀為 (batch_size, sequence_length), optional) — 用於避免對填充標記索引執行注意力計算的掩碼。掩碼值選自 [0, 1]：
- 1 表示標記未被遮蓋，
- 0 表示標記已被遮蓋。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), optional) — 用於指示輸入的第一和第二部分的片段標記索引。索引選自 [0, 1]：
- 0 對應於*句子 A* 的標記，
- 1 對應於*句子 B* 的標記。
什麼是標記型別 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), optional) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_mask (torch.LongTensor，形狀為 (batch_size, height, width), optional) — 用於避免對填充畫素值執行注意力計算的掩碼。掩碼值選自 [0, 1]：
- 1 表示畫素是真實的（即未被遮蓋），
- 0 表示畫素是填充的（即已被遮蓋）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor，形狀為 (num_heads,) 或 (num_layers, num_heads), optional) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值選自 [0, 1]：
- 1 表示頭未被遮蓋，
- 0 表示頭已被遮蓋。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), optional) — 可選地，你可以不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更靈活地控制如何將 input_ids 索引轉換為相關向量，這會很有用。
image_embeds (torch.FloatTensor，形狀為 (batch_size, num_patches, hidden_size), optional) — 可選地，你可以不傳遞 pixel_values，而是直接傳遞嵌入表示。如果你想更靈活地控制如何將 pixel_values 轉換為補丁嵌入，這會很有用。
image_token_type_idx (int, optional) —
- 影像的標記型別 ID。
output_attentions (bool, optional) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, optional) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, optional) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（ViltConfig）和輸入，包含各種元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor，形狀為 (batch_size, hidden_size)) — 序列的第一個標記（分類標記）的最後一層隱藏狀態，經過用於輔助預訓練任務的層進一步處理。例如，對於 BERT 系列模型，這會返回經過線性層和 tanh 啟用函式處理後的分類標記。線性層的權重是在預訓練期間從下一句預測（分類）目標中訓練的。
hidden_states (tuple(torch.FloatTensor), optional, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入的輸出，如果模型有嵌入層，+ 每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), optional, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ViltModel 的 forward 方法重寫了 `__call__` 特殊方法。

儘管前向傳播的配方需要在這個函式中定義，但之後應該呼叫 `Module` 例項而不是這個函式，因為前者會處理執行前處理和後處理步驟，而後者會靜默地忽略它們。

示例

>>> from transformers import ViltProcessor, ViltModel
>>> from PIL import Image
>>> import requests

>>> # prepare image and text
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "hello world"

>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-mlm")
>>> model = ViltModel.from_pretrained("dandelin/vilt-b32-mlm")

>>> inputs = processor(image, text, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state

ViltForMaskedLM

class transformers.ViltForMaskedLM

( config )

引數

config (ViltForMaskedLM) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

ViLT 模型，頂部帶有語言建模頭，與預訓練時一樣。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), optional) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.FloatTensor，形狀為 (batch_size, sequence_length), optional) — 用於避免對填充標記索引執行注意力計算的掩碼。掩碼值選自 [0, 1]：
- 1 表示標記未被遮蓋，
- 0 表示標記已被遮蓋。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), optional) — 用於指示輸入的第一和第二部分的片段標記索引。索引選自 [0, 1]：
- 0 對應於*句子 A* 的標記，
- 1 對應於*句子 B* 的標記。
什麼是標記型別 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), optional) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_mask (torch.LongTensor，形狀為 (batch_size, height, width), optional) — 用於避免對填充畫素值執行注意力計算的掩碼。掩碼值選自 [0, 1]：
- 1 表示畫素是真實的（即未被遮蓋），
- 0 表示畫素是填充的（即已被遮蓋）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor，形狀為 (num_heads,) 或 (num_layers, num_heads), optional) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值選自 [0, 1]：
- 1 表示頭未被遮蓋，
- 0 表示頭已被遮蓋。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), optional) — 可選地，你可以不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更靈活地控制如何將 input_ids 索引轉換為相關向量，這會很有用。
image_embeds (torch.FloatTensor，形狀為 (batch_size, num_patches, hidden_size), optional) — 可選地，你可以不傳遞 pixel_values，而是直接傳遞嵌入表示。如果你想更靈活地控制如何將 pixel_values 轉換為補丁嵌入，這會很有用。
labels (*torch.LongTensor*，形狀為 *(batch_size, sequence_length)*, optional) — 用於計算遮蓋語言建模損失的標籤。索引應在 *[-100, 0, …, config.vocab_size]* 範圍內（參見 *input_ids* 文件字串）。索引設定為 *-100* 的標記將被忽略（遮蓋），損失僅對標籤在 *[0, …, config.vocab_size]* 範圍內的標記計算。
output_attentions (bool, optional) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, optional) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, optional) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.MaskedLMOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（ViltConfig）和輸入，包含各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 掩碼語言建模 (MLM) 損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor), optional, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入的輸出，如果模型有嵌入層，+ 每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), optional, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ViltForMaskedLM 的 forward 方法重寫了 `__call__` 特殊方法。

示例

>>> from transformers import ViltProcessor, ViltForMaskedLM
>>> import requests
>>> from PIL import Image
>>> import re
>>> import torch

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "a bunch of [MASK] laying on a [MASK]."

>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-mlm")
>>> model = ViltForMaskedLM.from_pretrained("dandelin/vilt-b32-mlm")

>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")

>>> # forward pass
>>> outputs = model(**encoding)

>>> tl = len(re.findall("\[MASK\]", text))
>>> inferred_token = [text]

>>> # gradually fill in the MASK tokens, one by one
>>> with torch.no_grad():
...     for i in range(tl):
...         encoded = processor.tokenizer(inferred_token)
...         input_ids = torch.tensor(encoded.input_ids)
...         encoded = encoded["input_ids"][0][1:-1]
...         outputs = model(input_ids=input_ids, pixel_values=encoding.pixel_values)
...         mlm_logits = outputs.logits[0]  # shape (seq_len, vocab_size)
...         # only take into account text features (minus CLS and SEP token)
...         mlm_logits = mlm_logits[1 : input_ids.shape[1] - 1, :]
...         mlm_values, mlm_ids = mlm_logits.softmax(dim=-1).max(dim=-1)
...         # only take into account text
...         mlm_values[torch.tensor(encoded) != 103] = 0
...         select = mlm_values.argmax().item()
...         encoded[select] = mlm_ids[select].item()
...         inferred_token = [processor.decode(encoded)]

>>> selected_token = ""
>>> encoded = processor.tokenizer(inferred_token)
>>> output = processor.decode(encoded.input_ids[0], skip_special_tokens=True)
>>> print(output)
a bunch of cats laying on a couch.

ViltForQuestionAnswering

class transformers.ViltForQuestionAnswering

( config )

引數

config (ViltForQuestionAnswering) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Vilt 模型 Transformer，頂部帶有一個分類器頭（在 [CLS] 標記的最終隱藏狀態上加一個線性層），用於視覺問答，例如 VQAv2。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), optional) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.FloatTensor，形狀為 (batch_size, sequence_length), optional) — 用於避免對填充標記索引執行注意力計算的掩碼。掩碼值選自 [0, 1]：
- 1 表示標記未被遮蓋，
- 0 表示標記已被遮蓋。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), optional) — 用於指示輸入的第一和第二部分的片段標記索引。索引選自 [0, 1]：
- 0 對應於*句子 A* 的標記，
- 1 對應於*句子 B* 的標記。
什麼是標記型別 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), optional) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_mask (torch.LongTensor，形狀為 (batch_size, height, width), optional) — 用於避免對填充畫素值執行注意力計算的掩碼。掩碼值選自 [0, 1]：
- 1 表示畫素是真實的（即未被遮蓋），
- 0 表示畫素是填充的（即已被遮蓋）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor，形狀為 (num_heads,) 或 (num_layers, num_heads), optional) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值選自 [0, 1]：
- 1 表示頭未被遮蓋，
- 0 表示頭已被遮蓋。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), optional) — 可選地，你可以不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更靈活地控制如何將 input_ids 索引轉換為相關向量，這會很有用。
image_embeds (torch.FloatTensor，形狀為 (batch_size, num_patches, hidden_size), optional) — 可選地，你可以不傳遞 pixel_values，而是直接傳遞嵌入表示。如果你想更靈活地控制如何將 pixel_values 轉換為補丁嵌入，這會很有用。
labels (torch.FloatTensor，形狀為 (batch_size, num_labels), optional) — 用於計算視覺問答損失的標籤。此張量必須是批次中給定示例適用的所有答案的獨熱編碼，或者是表示哪些答案適用的軟編碼，其中 1.0 是最高分。
output_attentions (bool, optional) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, optional) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, optional) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（ViltConfig）和輸入，包含各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), optional, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入的輸出，如果模型有嵌入層，+ 每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), optional, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ViltForQuestionAnswering 的 forward 方法重寫了 `__call__` 特殊方法。

示例

>>> from transformers import ViltProcessor, ViltForQuestionAnswering
>>> import requests
>>> from PIL import Image

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "How many cats are there?"

>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
>>> model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")

>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")

>>> # forward pass
>>> outputs = model(**encoding)
>>> logits = outputs.logits
>>> idx = logits.argmax(-1).item()
>>> print("Predicted answer:", model.config.id2label[idx])
Predicted answer: 2

ViltForImagesAndTextClassification

class transformers.ViltForImagesAndTextClassification

( config )

引數

config (ViltForImagesAndTextClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Vilt 模型 Transformer，頂部帶有一個分類器頭，用於自然語言視覺推理，例如 NLVR2。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.vilt.modeling_vilt.ViltForImagesAndTextClassificationOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.FloatTensor，形狀為 (batch_size, sequence_length), 可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被遮蓋，
- 0 表示標記被遮蓋。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 段標記索引，用於指示輸入的第一部分和第二部分。索引在 [0, 1] 中選擇：
- 0 對應於 句子 A 的標記，
- 1 對應於 句子 B 的標記。
什麼是標記型別 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_mask (torch.LongTensor，形狀為 (batch_size, height, width), 可選) — 用於避免在填充畫素值上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示畫素是真實的（即未被遮蓋），
- 0 表示畫素是填充的（即被遮蓋）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor，形狀為 (num_heads,) 或 (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被遮蓋，
- 0 表示頭被遮蓋。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), 可選) — 可選地， вместо傳遞 input_ids，您可以選擇直接傳遞嵌入式表示。如果您想比模型的內部嵌入查詢矩陣更多地控制如何將 input_ids 索引轉換為關聯向量，這將非常有用。
image_embeds (torch.FloatTensor，形狀為 (batch_size, num_patches, hidden_size), 可選) — 可選地， вместо傳遞 pixel_values，您可以選擇直接傳遞嵌入式表示。如果您想更多地控制如何將 pixel_values 轉換為補丁嵌入，這將非常有用。
labels (torch.LongTensor，形狀為 (batch_size,), 可選) — 二元分類標籤。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通的元組。

transformers.models.vilt.modeling_vilt.ViltForImagesAndTextClassificationOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.vilt.modeling_vilt.ViltForImagesAndTextClassificationOutput 或 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（ViltConfig）和輸入，包含各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (list[tuple(torch.FloatTensor)], 可選, 在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組列表（每個影像-文字對一個，每個元組包含嵌入的輸出 + 每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。模型在每個層輸出處的隱藏狀態以及初始嵌入輸出。
attentions (list[tuple[torch.FloatTensor]], 可選, 在傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ViltForImagesAndTextClassification 的前向方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import ViltProcessor, ViltForImagesAndTextClassification
>>> import requests
>>> from PIL import Image

>>> image1 = Image.open(requests.get("https://lil.nlp.cornell.edu/nlvr/exs/ex0_0.jpg", stream=True).raw)
>>> image2 = Image.open(requests.get("https://lil.nlp.cornell.edu/nlvr/exs/ex0_1.jpg", stream=True).raw)
>>> text = "The left image contains twice the number of dogs as the right image."

>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-nlvr2")
>>> model = ViltForImagesAndTextClassification.from_pretrained("dandelin/vilt-b32-finetuned-nlvr2")

>>> # prepare inputs
>>> encoding = processor([image1, image2], text, return_tensors="pt")

>>> # forward pass
>>> outputs = model(input_ids=encoding.input_ids, pixel_values=encoding.pixel_values.unsqueeze(0))
>>> logits = outputs.logits
>>> idx = logits.argmax(-1).item()
>>> print("Predicted answer:", model.config.id2label[idx])
Predicted answer: True

ViltForImageAndTextRetrieval

class transformers.ViltForImageAndTextRetrieval

( config )

引數

config (ViltForImageAndTextRetrieval) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。

Vilt 模型 Transformer，頂部帶有一個分類器頭（在 [CLS] 標記的最終隱藏狀態之上有一個線性層），用於影像到文字或文字到影像的檢索，例如 MSCOCO 和 F30K。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.FloatTensor，形狀為 (batch_size, sequence_length), 可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被遮蓋，
- 0 表示標記被遮蓋。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 段標記索引，用於指示輸入的第一部分和第二部分。索引在 [0, 1] 中選擇：
- 0 對應於 句子 A 的標記，
- 1 對應於 句子 B 的標記。
什麼是標記型別 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_mask (torch.LongTensor，形狀為 (batch_size, height, width), 可選) — 用於避免在填充畫素值上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示畫素是真實的（即未被遮蓋），
- 0 表示畫素是填充的（即被遮蓋）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor，形狀為 (num_heads,) 或 (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被遮蓋，
- 0 表示頭被遮蓋。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), 可選) — 可選地， вместо傳遞 input_ids，您可以選擇直接傳遞嵌入式表示。如果您想比模型的內部嵌入查詢矩陣更多地控制如何將 input_ids 索引轉換為關聯向量，這將非常有用。
image_embeds (torch.FloatTensor，形狀為 (batch_size, num_patches, hidden_size), 可選) — 可選地， вместо傳遞 pixel_values，您可以選擇直接傳遞嵌入式表示。如果您想更多地控制如何將 pixel_values 轉換為補丁嵌入，這將非常有用。
labels (torch.LongTensor，形狀為 (batch_size,), 可選) — 目前不支援標籤。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通的元組。

transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), optional, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入的輸出，如果模型有嵌入層，+ 每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), optional, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ViltForImageAndTextRetrieval 的前向方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import ViltProcessor, ViltForImageAndTextRetrieval
>>> import requests
>>> from PIL import Image

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]

>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-coco")
>>> model = ViltForImageAndTextRetrieval.from_pretrained("dandelin/vilt-b32-finetuned-coco")

>>> # forward pass
>>> scores = dict()
>>> for text in texts:
...     # prepare inputs
...     encoding = processor(image, text, return_tensors="pt")
...     outputs = model(**encoding)
...     scores[text] = outputs.logits[0, :].item()

ViltForTokenClassification

class transformers.ViltForTokenClassification

( config )

引數

config (ViltForTokenClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。

帶有一個標記分類頭的 Vilt transformer（在隱藏狀態輸出之上有一個線性層），例如用於命名實體識別（NER）任務。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward