Transformers 文件
ViLT
並獲得增強的文件體驗
開始使用
ViLT
概述
ViLT 模型由 Wonjae Kim、Bokyung Son 和 Ildoo Kim 在論文 ViLT:無需卷積或區域監督的視覺-語言 Transformer 中提出。ViLT 將文字嵌入整合到視覺 Transformer (ViT) 中,使其能夠以最小化的設計進行視覺與語言預訓練 (VLP)。
論文摘要如下:
視覺與語言預訓練 (VLP) 提高了各種聯合視覺與語言下游任務的效能。當前的 VLP 方法嚴重依賴於影像特徵提取過程,其中大多數涉及區域監督(例如,物件檢測)和卷積架構(例如,ResNet)。儘管在文獻中被忽視,但我們發現在 (1) 效率/速度方面存在問題,即簡單地提取輸入特徵比多模態互動步驟需要更多的計算;(2) 在表達能力方面,其上限受限於視覺嵌入器的表達能力及其預定義的視覺詞彙表。在本文中,我們提出了一個最小化的 VLP 模型,即視覺-語言 Transformer (ViLT),它在某種意義上是單體的,因為視覺輸入的處理被極大地簡化為與處理文字輸入相同的無卷積方式。我們證明 ViLT 比以前的 VLP 模型快數十倍,同時具有相當或更好的下游任務效能。

使用技巧
- 開始使用 ViLT 的最快方法是檢視示例筆記本(其中展示了在自定義資料上的推理和微調)。
- ViLT 是一個同時接受 `pixel_values` 和 `input_ids` 作為輸入的模型。可以使用 ViltProcessor 來為模型準備資料。該處理器將影像處理器(用於影像模態)和分詞器(用於語言模態)封裝在一起。
- ViLT 使用不同尺寸的影像進行訓練:作者將輸入影像的短邊調整為 384,並將長邊限制在 640 以下,同時保持長寬比。為了實現影像的批處理,作者使用了 `pixel_mask` 來指示哪些畫素值是真實的,哪些是填充。 ViltProcessor 會自動為你建立這個掩碼。
- ViLT 的設計與標準的視覺 Transformer (ViT) 非常相似。唯一的區別是該模型為語言模態包含了額外的嵌入層。
- 此模型的 PyTorch 版本僅在 torch 1.10 及更高版本中可用。
ViltConfig
class transformers.ViltConfig
< 來源 >( vocab_size = 30522 type_vocab_size = 2 modality_type_vocab_size = 2 max_position_embeddings = 40 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 image_size = 384 patch_size = 32 num_channels = 3 qkv_bias = True max_image_length = -1 tie_word_embeddings = False num_images = -1 **kwargs )
引數
- vocab_size (
int
, 可選, 預設為 30522) — 模型文字部分的詞彙表大小。定義了在呼叫 ViltModel 時,可以透過 `inputs_ids` 表示的不同標記的數量。 - type_vocab_size (
int
, 可選, 預設為 2) — 在呼叫 ViltModel 時傳遞的 `token_type_ids` 的詞彙表大小。這在編碼文字時使用。 - modality_type_vocab_size (
int
, 可選, 預設為 2) — 在呼叫 ViltModel 時傳遞的模態詞彙表大小。這在連線文字和影像模態的嵌入後使用。 - max_position_embeddings (
int
, 可選, 預設為 40) — 該模型可能使用的最大序列長度。 - hidden_size (
int
, 可選, 預設為 768) — 編碼器層和池化層的維度。 - num_hidden_layers (
int
, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數。 - num_attention_heads (
int
, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。 - intermediate_size (
int
, 可選, 預設為 3072) — Transformer 編碼器中“中間”(即前饋)層的維度。 - hidden_act (
str
或function
, 可選, 預設為"gelu"
) — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,支援 `"gelu"`、`"relu"`、`"selu"` 和 `"gelu_new"`。 - hidden_dropout_prob (
float
, 可選, 預設為 0.0) — 嵌入、編碼器和池化器中所有全連線層的丟棄機率。 - attention_probs_dropout_prob (
float
, 可選, 預設為 0.0) — 注意力機率的丟棄率。 - initializer_range (
float
, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。 - layer_norm_eps (
float
, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon。 - image_size (
int
, 可選, 預設為 384) — 每個影像的大小(解析度)。 - patch_size (
int
, 可選, 預設為 32) — 每個影像塊的大小(解析度)。 - num_channels (
int
, 可選, 預設為 3) — 輸入通道的數量。 - qkv_bias (
bool
, 可選, 預設為 `True`) — 是否為查詢、鍵和值新增偏置。 - max_image_length (
int
, 可選, 預設為 -1) — Transformer 編碼器接受的最大影像塊數量。如果設定為正整數,編碼器將最多采樣 `max_image_length` 個影像塊。如果設定為 -1,則不考慮此引數。 - num_images (
int
, 可選, 預設為 -1) — 用於自然語言視覺推理的影像數量。如果設定為正整數,ViltForImagesAndTextClassification 將用它來定義分類器頭。
這是一個用於儲存 `ViLTModel` 配置的配置類。它用於根據指定的引數例項化一個 ViLT 模型,定義模型架構。使用預設值例項化配置將產生與 ViLT dandelin/vilt-b32-mlm 架構類似的配置。
配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請閱讀 PretrainedConfig 的文件。
示例
>>> from transformers import ViLTModel, ViLTConfig
>>> # Initializing a ViLT dandelin/vilt-b32-mlm style configuration
>>> configuration = ViLTConfig()
>>> # Initializing a model from the dandelin/vilt-b32-mlm style configuration
>>> model = ViLTModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
ViltFeatureExtractor
預處理單張或批次影像。
ViltImageProcessor
class transformers.ViltImageProcessor
< 來源 >( do_resize: bool = True size: typing.Optional[dict[str, int]] = None size_divisor: int = 32 resample: Resampling = <Resampling.BICUBIC: 3> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: bool = True **kwargs )
引數
- do_resize (
bool
, 可選, 預設為 `True`) — 是否將影像的(高度,寬度)尺寸調整為指定的 `size`。可以在 `preprocess` 方法中透過 `do_resize` 引數覆蓋。 - size (
dict[str, int]
可選, 預設為 `{"shortest_edge" -- 384}`): 將輸入影像的短邊調整為 `size["shortest_edge"]`。長邊將被限制在 `int((1333 / 800) * size["shortest_edge"])` 以下,同時保持長寬比。僅在 `do_resize` 設定為 `True` 時有效。可以在 `preprocess` 方法中透過 `size` 引數覆蓋。 - size_divisor (
int
, 可選, 預設為 32) — 確保高度和寬度都可以被其整除的大小。僅在 `do_resize` 設定為 `True` 時有效。可以在 `preprocess` 方法中透過 `size_divisor` 引數覆蓋。 - resample (
PILImageResampling
, 可選, 預設為 `Resampling.BICUBIC`) — 如果調整影像大小,使用的重取樣過濾器。僅在 `do_resize` 設定為 `True` 時有效。可以在 `preprocess` 方法中透過 `resample` 引數覆蓋。 - do_rescale (
bool
, 可選, 預設為True
) — 是否透過指定的縮放比例rescale_factor
對影像進行縮放。可以在preprocess
方法中使用do_rescale
引數進行覆蓋。 - rescale_factor (
int
或float
, 可選, 預設為1/255
) — 如果對影像進行縮放,則使用的縮放因子。僅當do_rescale
設定為True
時有效。可以在preprocess
方法中使用rescale_factor
引數進行覆蓋。 - do_normalize (
bool
, 可選, 預設為True
) — 是否對影像進行歸一化。可以在preprocess
方法中使用do_normalize
引數進行覆蓋。可以在preprocess
方法中使用do_normalize
引數進行覆蓋。 - image_mean (
float
或list[float]
, 可選, 預設為IMAGENET_STANDARD_MEAN
) — 如果對影像進行歸一化,則使用的均值。這是一個浮點數或浮點數列表,其長度與影像中的通道數相同。可以在preprocess
方法中使用image_mean
引數進行覆蓋。可以在preprocess
方法中使用image_mean
引數進行覆蓋。 - image_std (
float
或list[float]
, 可選, 預設為IMAGENET_STANDARD_STD
) — 如果對影像進行歸一化,則使用的標準差。這是一個浮點數或浮點數列表,其長度與影像中的通道數相同。可以在preprocess
方法中使用image_std
引數進行覆蓋。可以在preprocess
方法中使用image_std
引數進行覆蓋。 - do_pad (
bool
, 可選, 預設為True
) — 是否將影像填充到批次中影像的(max_height, max_width)
。可以在preprocess
方法中使用do_pad
引數進行覆蓋。
構建一個 ViLT 影像處理器。
preprocess
< source >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None size_divisor: typing.Optional[int] = None resample: Resampling = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )
引數
- images (
ImageInput
) — 待預處理的影像。需要單個或一批畫素值在 0 到 255 範圍內的影像。如果傳入的影像畫素值在 0 到 1 之間,請設定do_rescale=False
。 - do_resize (
bool
, 可選, 預設為self.do_resize
) — 是否調整影像大小。 - size (
dict[str, int]
, 可選, 預設為self.size
) — 控制 `resize` 後圖像的大小。影像的最短邊被調整為 `size["shortest_edge"]`,同時保持縱橫比。如果調整大小後圖像的最長邊大於 `int(size["shortest_edge"] * (1333 / 800))`,則再次調整影像大小,使最長邊等於 `int(size["shortest_edge"] * (1333 / 800))`。 - size_divisor (
int
, 可選, 預設為self.size_divisor
) — 影像被調整到該值的倍數大小。 - resample (
PILImageResampling
, 可選, 預設為self.resample
) — 如果調整影像大小,則使用的重取樣濾波器。僅當do_resize
設定為True
時有效。 - do_rescale (
bool
, 可選, 預設為self.do_rescale
) — 是否將影像值縮放到 [0 - 1] 之間。 - rescale_factor (
float
, 可選, 預設為self.rescale_factor
) — 如果 `do_rescale` 設定為 `True`,則用於縮放影像的縮放因子。 - do_normalize (
bool
, 可選, 預設為self.do_normalize
) — 是否對影像進行歸一化。 - image_mean (
float
或list[float]
, 可選, 預設為self.image_mean
) — 如果 `do_normalize` 設定為 `True`,則用於歸一化影像的均值。 - image_std (
float
或list[float]
, 可選, 預設為self.image_std
) — 如果 `do_normalize` 設定為 `True`,則用於歸一化影像的標準差。 - do_pad (
bool
, 可選, 預設為self.do_pad
) — 是否將影像填充到批次中的 (max_height, max_width)。如果為 `True`,則還會建立並返回一個畫素掩碼。 - return_tensors (
str
或TensorType
, 可選) — 要返回的張量型別。可以是以下之一:- 未設定:返回 `np.ndarray` 列表。
TensorType.TENSORFLOW
或'tf'
:返回 `tf.Tensor` 型別的批次。TensorType.PYTORCH
或'pt'
:返回 `torch.Tensor` 型別的批次。TensorType.NUMPY
或'np'
:返回 `np.ndarray` 型別的批次。TensorType.JAX
或'jax'
:返回 `jax.numpy.ndarray` 型別的批次。
- data_format (
ChannelDimension
或str
, 可選, 預設為ChannelDimension.FIRST
) — 輸出影像的通道維度格式。可以是以下之一:ChannelDimension.FIRST
:影像格式為 (num_channels, height, width)。ChannelDimension.LAST
:影像格式為 (height, width, num_channels)。
- input_data_format (
ChannelDimension
或str
, 可選) — 輸入影像的通道維度格式。如果未設定,則從輸入影像中推斷通道維度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:影像格式為 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:影像格式為 (height, width, num_channels)。"none"
或ChannelDimension.NONE
:影像格式為 (height, width)。
預處理一張或一批影像。
ViltImageProcessorFast
class transformers.ViltImageProcessorFast
< source >( **kwargs: typing_extensions.Unpack[transformers.image_processing_utils_fast.DefaultFastImageProcessorKwargs] )
構建一個快速的 Vilt 影像處理器。
preprocess
< source >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.image_processing_utils_fast.DefaultFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>
引數
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]
) — 待預處理的影像。需要單個或一批畫素值在 0 到 255 範圍內的影像。如果傳入的影像畫素值在 0 到 1 之間,請設定 `do_rescale=False`。 - do_resize (
bool
, 可選) — 是否調整影像大小。 - size (
dict[str, int]
, 可選) — 描述模型的最大輸入尺寸。 - default_to_square (
bool
, 可選) — 當 size 是一個整數時,調整大小時是否預設為正方形影像。 - resample (
Union[PILImageResampling, F.InterpolationMode, NoneType]
) — 如果調整影像大小,則使用的重取樣濾波器。這可以是 `PILImageResampling` 列舉之一。僅當 `do_resize` 設定為 `True` 時有效。 - do_center_crop (
bool
, 可選) — 是否對影像進行中心裁剪。 - crop_size (
dict[str, int]
, 可選) — 應用 `center_crop` 後輸出影像的大小。 - do_rescale (
bool
, 可選) — 是否縮放影像。 - rescale_factor (
Union[int, float, NoneType]
) — 如果 `do_rescale` 設定為 `True`,則用於縮放影像的縮放因子。 - do_normalize (
bool
, 可選) — 是否對影像進行歸一化。 - image_mean (
Union[float, list[float], NoneType]
) — 用於歸一化的影像均值。僅當 `do_normalize` 設定為 `True` 時有效。 - image_std (
Union[float, list[float], NoneType]
) — 用於歸一化的影像標準差。僅當 `do_normalize` 設定為 `True` 時有效。 - do_convert_rgb (
bool
, 可選) — 是否將影像轉換為 RGB。 - return_tensors (
Union[str, ~utils.generic.TensorType, NoneType]
) — 如果設定為 `pt`,則返回堆疊的張量,否則返回張量列表。 - data_format (
~image_utils.ChannelDimension
, 可選) — 僅支援 `ChannelDimension.FIRST`。為與慢速處理器相容而新增。 - input_data_format (
Union[str, ~image_utils.ChannelDimension, NoneType]
) — 輸入影像的通道維度格式。如果未設定,則從輸入影像中推斷通道維度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:影像格式為 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:影像格式為 (height, width, num_channels)。"none"
或ChannelDimension.NONE
:影像格式為 (height, width)。
- device (
torch.device
, 可選) — 處理影像的裝置。如果未設定,則從輸入影像中推斷裝置。 - disable_grouping (
bool
, 可選) — 是否停用按大小對影像進行分組,以便單獨處理而不是分批處理。如果為 None,則如果影像在 CPU 上,將設定為 True,否則為 False。此選擇基於經驗觀察,詳見此處:https://github.com/huggingface/transformers/pull/38157
返回
<class 'transformers.image_processing_base.BatchFeature'>
- data (
dict
) — 由 call 方法返回的列表/陣列/張量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType]
, 可選) — 您可以在此處提供一個`tensor_type`,以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。
ViltProcessor
class transformers.ViltProcessor
< source >( image_processor = None tokenizer = None **kwargs )
引數
- image_processor (
ViltImageProcessor
, 可選) — ViltImageProcessor 的一個例項。影像處理器是必需的輸入。 - tokenizer (
BertTokenizerFast
, 可選) — [`BertTokenizerFast`] 的一個例項。分詞器是必需的輸入。
構建一個 ViLT 處理器,它將 BERT 分詞器和 ViLT 影像處理器包裝成單個處理器。
ViltProcessor 提供 ViltImageProcessor 和 BertTokenizerFast 的所有功能。有關更多資訊,請參閱 call() 和 `decode()` 的文件字串。
__call__
< source >( images text: typing.Union[str, list[str], list[list[str]]] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = None max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None **kwargs )
此方法使用 ViltImageProcessor.__call__() 方法為模型準備影像,並使用 BertTokenizerFast.__call__() 為模型準備文字。
有關更多資訊,請參閱上述兩種方法的文件字串。
ViltModel
class transformers.ViltModel
< source >( config add_pooling_layer = True )
引數
- config (ViltModel) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。
- add_pooling_layer (
bool
, optional, 預設為True
) — 是否新增一個池化層
裸 Vilt 模型,輸出原始的隱藏狀態,頂部沒有任何特定的頭。
該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。
forward
< 原始碼 >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None image_token_type_idx: typing.Optional[int] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, optional) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
, optional) — 用於避免對填充標記索引執行注意力計算的掩碼。掩碼值選自[0, 1]
:- 1 表示標記未被遮蓋,
- 0 表示標記已被遮蓋。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, optional) — 用於指示輸入的第一和第二部分的片段標記索引。索引選自[0, 1]
:- 0 對應於*句子 A* 的標記,
- 1 對應於*句子 B* 的標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
, optional) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
, optional) — 用於避免對填充畫素值執行注意力計算的掩碼。掩碼值選自[0, 1]
:- 1 表示畫素是真實的(即未被遮蓋),
- 0 表示畫素是填充的(即已被遮蓋)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
, optional) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值選自[0, 1]
:- 1 表示頭未被遮蓋,
- 0 表示頭已被遮蓋。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
, optional) — 可選地,你可以不傳遞input_ids
,而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更靈活地控制如何將input_ids
索引轉換為相關向量,這會很有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
, optional) — 可選地,你可以不傳遞pixel_values
,而是直接傳遞嵌入表示。如果你想更靈活地控制如何將pixel_values
轉換為補丁嵌入,這會很有用。 - image_token_type_idx (
int
, optional) —- 影像的標記型別 ID。
- output_attentions (
bool
, optional) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。 - output_hidden_states (
bool
, optional) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。 - return_dict (
bool
, optional) — 是否返回一個 ModelOutput 而不是一個普通的元組。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor
元組(如果傳遞了 return_dict=False
或當 config.return_dict=False
時),根據配置(ViltConfig)和輸入,包含各種元素。
-
last_hidden_state (
torch.FloatTensor
, 形狀為(batch_size, sequence_length, hidden_size)
) — 模型最後一層輸出的隱藏狀態序列。 -
pooler_output (
torch.FloatTensor
,形狀為(batch_size, hidden_size)
) — 序列的第一個標記(分類標記)的最後一層隱藏狀態,經過用於輔助預訓練任務的層進一步處理。例如,對於 BERT 系列模型,這會返回經過線性層和 tanh 啟用函式處理後的分類標記。線性層的權重是在預訓練期間從下一句預測(分類)目標中訓練的。 -
hidden_states (
tuple(torch.FloatTensor)
, optional, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(一個用於嵌入的輸出,如果模型有嵌入層,+ 每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, optional, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每個層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
ViltModel 的 forward 方法重寫了 `__call__` 特殊方法。
儘管前向傳播的配方需要在這個函式中定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。
示例
>>> from transformers import ViltProcessor, ViltModel
>>> from PIL import Image
>>> import requests
>>> # prepare image and text
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "hello world"
>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-mlm")
>>> model = ViltModel.from_pretrained("dandelin/vilt-b32-mlm")
>>> inputs = processor(image, text, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
ViltForMaskedLM
class transformers.ViltForMaskedLM
< 原始碼 >( config )
引數
- config (ViltForMaskedLM) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。
ViLT 模型,頂部帶有語言建模頭,與預訓練時一樣。
該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。
forward
< 原始碼 >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, optional) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
, optional) — 用於避免對填充標記索引執行注意力計算的掩碼。掩碼值選自[0, 1]
:- 1 表示標記未被遮蓋,
- 0 表示標記已被遮蓋。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, optional) — 用於指示輸入的第一和第二部分的片段標記索引。索引選自[0, 1]
:- 0 對應於*句子 A* 的標記,
- 1 對應於*句子 B* 的標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
, optional) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
, optional) — 用於避免對填充畫素值執行注意力計算的掩碼。掩碼值選自[0, 1]
:- 1 表示畫素是真實的(即未被遮蓋),
- 0 表示畫素是填充的(即已被遮蓋)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
, optional) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值選自[0, 1]
:- 1 表示頭未被遮蓋,
- 0 表示頭已被遮蓋。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
, optional) — 可選地,你可以不傳遞input_ids
,而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更靈活地控制如何將input_ids
索引轉換為相關向量,這會很有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
, optional) — 可選地,你可以不傳遞pixel_values
,而是直接傳遞嵌入表示。如果你想更靈活地控制如何將pixel_values
轉換為補丁嵌入,這會很有用。 - labels (
*torch.LongTensor*
,形狀為 *(batch_size, sequence_length)*, optional) — 用於計算遮蓋語言建模損失的標籤。索引應在 *[-100, 0, …, config.vocab_size]* 範圍內(參見 *input_ids* 文件字串)。索引設定為 *-100* 的標記將被忽略(遮蓋),損失僅對標籤在 *[0, …, config.vocab_size]* 範圍內的標記計算。 - output_attentions (
bool
, optional) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。 - output_hidden_states (
bool
, optional) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。 - return_dict (
bool
, optional) — 是否返回一個 ModelOutput 而不是一個普通的元組。
返回
transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.MaskedLMOutput 或一個 torch.FloatTensor
元組(如果傳遞了 return_dict=False
或當 config.return_dict=False
時),根據配置(ViltConfig)和輸入,包含各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 掩碼語言建模 (MLM) 損失。 -
logits (形狀為
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。 -
hidden_states (
tuple(torch.FloatTensor)
, optional, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(一個用於嵌入的輸出,如果模型有嵌入層,+ 每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, optional, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每個層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
ViltForMaskedLM 的 forward 方法重寫了 `__call__` 特殊方法。
儘管前向傳播的配方需要在這個函式中定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。
示例
>>> from transformers import ViltProcessor, ViltForMaskedLM
>>> import requests
>>> from PIL import Image
>>> import re
>>> import torch
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "a bunch of [MASK] laying on a [MASK]."
>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-mlm")
>>> model = ViltForMaskedLM.from_pretrained("dandelin/vilt-b32-mlm")
>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")
>>> # forward pass
>>> outputs = model(**encoding)
>>> tl = len(re.findall("\[MASK\]", text))
>>> inferred_token = [text]
>>> # gradually fill in the MASK tokens, one by one
>>> with torch.no_grad():
... for i in range(tl):
... encoded = processor.tokenizer(inferred_token)
... input_ids = torch.tensor(encoded.input_ids)
... encoded = encoded["input_ids"][0][1:-1]
... outputs = model(input_ids=input_ids, pixel_values=encoding.pixel_values)
... mlm_logits = outputs.logits[0] # shape (seq_len, vocab_size)
... # only take into account text features (minus CLS and SEP token)
... mlm_logits = mlm_logits[1 : input_ids.shape[1] - 1, :]
... mlm_values, mlm_ids = mlm_logits.softmax(dim=-1).max(dim=-1)
... # only take into account text
... mlm_values[torch.tensor(encoded) != 103] = 0
... select = mlm_values.argmax().item()
... encoded[select] = mlm_ids[select].item()
... inferred_token = [processor.decode(encoded)]
>>> selected_token = ""
>>> encoded = processor.tokenizer(inferred_token)
>>> output = processor.decode(encoded.input_ids[0], skip_special_tokens=True)
>>> print(output)
a bunch of cats laying on a couch.
ViltForQuestionAnswering
class transformers.ViltForQuestionAnswering
< 原始碼 >( config )
引數
- config (ViltForQuestionAnswering) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。
Vilt 模型 Transformer,頂部帶有一個分類器頭(在 [CLS] 標記的最終隱藏狀態上加一個線性層),用於視覺問答,例如 VQAv2。
該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。
forward
< 原始碼 >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, optional) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
, optional) — 用於避免對填充標記索引執行注意力計算的掩碼。掩碼值選自[0, 1]
:- 1 表示標記未被遮蓋,
- 0 表示標記已被遮蓋。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, optional) — 用於指示輸入的第一和第二部分的片段標記索引。索引選自[0, 1]
:- 0 對應於*句子 A* 的標記,
- 1 對應於*句子 B* 的標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
, optional) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
, optional) — 用於避免對填充畫素值執行注意力計算的掩碼。掩碼值選自[0, 1]
:- 1 表示畫素是真實的(即未被遮蓋),
- 0 表示畫素是填充的(即已被遮蓋)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
, optional) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值選自[0, 1]
:- 1 表示頭未被遮蓋,
- 0 表示頭已被遮蓋。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
, optional) — 可選地,你可以不傳遞input_ids
,而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更靈活地控制如何將input_ids
索引轉換為相關向量,這會很有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
, optional) — 可選地,你可以不傳遞pixel_values
,而是直接傳遞嵌入表示。如果你想更靈活地控制如何將pixel_values
轉換為補丁嵌入,這會很有用。 - labels (
torch.FloatTensor
,形狀為(batch_size, num_labels)
, optional) — 用於計算視覺問答損失的標籤。此張量必須是批次中給定示例適用的所有答案的獨熱編碼,或者是表示哪些答案適用的軟編碼,其中 1.0 是最高分。 - output_attentions (
bool
, optional) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。 - output_hidden_states (
bool
, optional) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。 - return_dict (
bool
, optional) — 是否返回一個 ModelOutput 而不是一個普通的元組。
返回
transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor
元組(如果傳遞了 return_dict=False
或當 config.return_dict=False
時),根據配置(ViltConfig)和輸入,包含各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。 -
logits (形狀為
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分類(如果 config.num_labels==1,則為迴歸)分數(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, optional, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(一個用於嵌入的輸出,如果模型有嵌入層,+ 每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, optional, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每個層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
ViltForQuestionAnswering 的 forward 方法重寫了 `__call__` 特殊方法。
儘管前向傳播的配方需要在這個函式中定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。
示例
>>> from transformers import ViltProcessor, ViltForQuestionAnswering
>>> import requests
>>> from PIL import Image
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "How many cats are there?"
>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
>>> model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")
>>> # forward pass
>>> outputs = model(**encoding)
>>> logits = outputs.logits
>>> idx = logits.argmax(-1).item()
>>> print("Predicted answer:", model.config.id2label[idx])
Predicted answer: 2
ViltForImagesAndTextClassification
class transformers.ViltForImagesAndTextClassification
< 原始碼 >( config )
引數
- config (ViltForImagesAndTextClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。
Vilt 模型 Transformer,頂部帶有一個分類器頭,用於自然語言視覺推理,例如 NLVR2。
該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.vilt.modeling_vilt.ViltForImagesAndTextClassificationOutput
或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, 可選) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
, 可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示標記未被遮蓋,
- 0 表示標記被遮蓋。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, 可選) — 段標記索引,用於指示輸入的第一部分和第二部分。索引在[0, 1]
中選擇:- 0 對應於 句子 A 的標記,
- 1 對應於 句子 B 的標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
, 可選) — 對應於輸入影像的張量。可以使用{image_processor_class}
獲取畫素值。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
, 可選) — 用於避免在填充畫素值上執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示畫素是真實的(即未被遮蓋),
- 0 表示畫素是填充的(即被遮蓋)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
, 可選) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭未被遮蓋,
- 0 表示頭被遮蓋。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
, 可選) — 可選地, вместо傳遞input_ids
,您可以選擇直接傳遞嵌入式表示。如果您想比模型的內部嵌入查詢矩陣更多地控制如何將input_ids
索引轉換為關聯向量,這將非常有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
, 可選) — 可選地, вместо傳遞pixel_values
,您可以選擇直接傳遞嵌入式表示。如果您想更多地控制如何將pixel_values
轉換為補丁嵌入,這將非常有用。 - labels (
torch.LongTensor
,形狀為(batch_size,)
, 可選) — 二元分類標籤。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通的元組。
返回
transformers.models.vilt.modeling_vilt.ViltForImagesAndTextClassificationOutput
或 tuple(torch.FloatTensor)
一個 transformers.models.vilt.modeling_vilt.ViltForImagesAndTextClassificationOutput
或 torch.FloatTensor
的元組(如果傳遞了 return_dict=False
或當 config.return_dict=False
時),根據配置(ViltConfig)和輸入,包含各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。 -
logits (形狀為
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分類(如果 config.num_labels==1,則為迴歸)分數(SoftMax 之前)。 -
hidden_states (
list[tuple(torch.FloatTensor)]
, 可選, 在傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組列表(每個影像-文字對一個,每個元組包含嵌入的輸出 + 每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出處的隱藏狀態以及初始嵌入輸出。 -
attentions (
list[tuple[torch.FloatTensor]]
, 可選, 在傳遞output_attentions=True
或config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
ViltForImagesAndTextClassification 的前向方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在這個函式中定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。
示例
>>> from transformers import ViltProcessor, ViltForImagesAndTextClassification
>>> import requests
>>> from PIL import Image
>>> image1 = Image.open(requests.get("https://lil.nlp.cornell.edu/nlvr/exs/ex0_0.jpg", stream=True).raw)
>>> image2 = Image.open(requests.get("https://lil.nlp.cornell.edu/nlvr/exs/ex0_1.jpg", stream=True).raw)
>>> text = "The left image contains twice the number of dogs as the right image."
>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-nlvr2")
>>> model = ViltForImagesAndTextClassification.from_pretrained("dandelin/vilt-b32-finetuned-nlvr2")
>>> # prepare inputs
>>> encoding = processor([image1, image2], text, return_tensors="pt")
>>> # forward pass
>>> outputs = model(input_ids=encoding.input_ids, pixel_values=encoding.pixel_values.unsqueeze(0))
>>> logits = outputs.logits
>>> idx = logits.argmax(-1).item()
>>> print("Predicted answer:", model.config.id2label[idx])
Predicted answer: True
ViltForImageAndTextRetrieval
class transformers.ViltForImageAndTextRetrieval
< source >( config )
引數
- config (ViltForImageAndTextRetrieval) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重,只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。
Vilt 模型 Transformer,頂部帶有一個分類器頭(在 [CLS] 標記的最終隱藏狀態之上有一個線性層),用於影像到文字或文字到影像的檢索,例如 MSCOCO 和 F30K。
該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, 可選) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
, 可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示標記未被遮蓋,
- 0 表示標記被遮蓋。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, 可選) — 段標記索引,用於指示輸入的第一部分和第二部分。索引在[0, 1]
中選擇:- 0 對應於 句子 A 的標記,
- 1 對應於 句子 B 的標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
, 可選) — 對應於輸入影像的張量。可以使用{image_processor_class}
獲取畫素值。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
, 可選) — 用於避免在填充畫素值上執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示畫素是真實的(即未被遮蓋),
- 0 表示畫素是填充的(即被遮蓋)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
, 可選) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭未被遮蓋,
- 0 表示頭被遮蓋。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
, 可選) — 可選地, вместо傳遞input_ids
,您可以選擇直接傳遞嵌入式表示。如果您想比模型的內部嵌入查詢矩陣更多地控制如何將input_ids
索引轉換為關聯向量,這將非常有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
, 可選) — 可選地, вместо傳遞pixel_values
,您可以選擇直接傳遞嵌入式表示。如果您想更多地控制如何將pixel_values
轉換為補丁嵌入,這將非常有用。 - labels (
torch.LongTensor
,形狀為(batch_size,)
, 可選) — 目前不支援標籤。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通的元組。
返回
transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor
元組(如果傳遞了 return_dict=False
或當 config.return_dict=False
時),根據配置(ViltConfig)和輸入,包含各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。 -
logits (形狀為
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分類(如果 config.num_labels==1,則為迴歸)分數(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, optional, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(一個用於嵌入的輸出,如果模型有嵌入層,+ 每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, optional, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每個層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
ViltForImageAndTextRetrieval 的前向方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在這個函式中定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。
示例
>>> from transformers import ViltProcessor, ViltForImageAndTextRetrieval
>>> import requests
>>> from PIL import Image
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]
>>> processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-coco")
>>> model = ViltForImageAndTextRetrieval.from_pretrained("dandelin/vilt-b32-finetuned-coco")
>>> # forward pass
>>> scores = dict()
>>> for text in texts:
... # prepare inputs
... encoding = processor(image, text, return_tensors="pt")
... outputs = model(**encoding)
... scores[text] = outputs.logits[0, :].item()
ViltForTokenClassification
class transformers.ViltForTokenClassification
< source >( config )
引數
- config (ViltForTokenClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重,只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。
帶有一個標記分類頭的 Vilt transformer(在隱藏狀態輸出之上有一個線性層),例如用於命名實體識別(NER)任務。
該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
該模型也是一個 PyTorch torch.nn.Module 的子類。可以像使用常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, 可選) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
, 可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示標記未被遮蓋,
- 0 表示標記被遮蓋。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
, 可選) — 段標記索引,用於指示輸入的第一部分和第二部分。索引在[0, 1]
中選擇:- 0 對應於 句子 A 的標記,
- 1 對應於 句子 B 的標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
, 可選) — 對應於輸入影像的張量。可以使用{image_processor_class}
獲取畫素值。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
, 可選) — 用於避免在填充畫素值上執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示畫素是真實的(即未被遮蓋),
- 0 表示畫素是填充的(即被遮蓋)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
, 可選) — 用於使自注意力模組的選定頭無效的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭未被遮蓋,
- 0 表示頭被遮蓋。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
, 可選) — 可選地, вместо傳遞input_ids
,您可以選擇直接傳遞嵌入式表示。如果您想比模型的內部嵌入查詢矩陣更多地控制如何將input_ids
索引轉換為關聯向量,這將非常有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
, 可選) — 可選地, вместо傳遞pixel_values
,您可以選擇直接傳遞嵌入式表示。如果您想更多地控制如何將pixel_values
轉換為補丁嵌入,這將非常有用。 - labels (
torch.LongTensor
,形狀為(batch_size, text_sequence_length)
, 可選) — 用於計算標記分類損失的標籤。索引應在[0, ..., config.num_labels - 1]
範圍內。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通的元組。
返回
transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.TokenClassifierOutput 或 torch.FloatTensor
的元組(如果傳遞了 return_dict=False
或當 config.return_dict=False
時),根據配置(ViltConfig)和輸入,包含各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 分類損失。 -
logits (形狀為
(batch_size, sequence_length, config.num_labels)
的torch.FloatTensor
) — 分類分數(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, optional, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(一個用於嵌入的輸出,如果模型有嵌入層,+ 每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, optional, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每個層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
ViltForTokenClassification 的前向方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在這個函式中定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。
示例
>>> from transformers import AutoTokenizer, ViltForTokenClassification
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("dandelin/vilt-b32-mlm")
>>> model = ViltForTokenClassification.from_pretrained("dandelin/vilt-b32-mlm")
>>> inputs = tokenizer(
... "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> predicted_token_class_ids = logits.argmax(-1)
>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
...
>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...