Transformers

( share_cross_modal_transformer_layers = True hidden_act = 'gelu' hidden_size = 768 initializer_factor = 1 layer_norm_eps = 1e-05 share_link_tower_layers = False link_tower_type = 'add' num_attention_heads = 12 num_hidden_layers = 6 tie_word_embeddings = False init_layernorm_from_vision_encoder = False text_config = None vision_config = None **kwargs )

引數

share_cross_modal_transformer_layers (bool, 可選, 預設為 True) — 跨模態 transformer 層是否共享。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化器層的維度。
initializer_factor (float, 可選, 預設為 1) — 初始化所有權重矩陣的因子（應保持為 1，內部用於初始化測試）。
layer_norm_eps (float, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。
share_link_tower_layers (bool, 可選, 預設為 False) — 橋接/連結塔層是否共享。
link_tower_type (str, 可選, 預設為 "add") — 橋接/連結層的型別。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
num_hidden_layers (int, 可選, 預設為 6) — Transformer 編碼器中的隱藏層數量。
tie_word_embeddings (bool, 可選, 預設為 False) — 是否繫結輸入和輸出嵌入。
init_layernorm_from_vision_encoder (bool, 可選, 預設為 False) — 是否從視覺編碼器初始化 LayerNorm。
text_config (dict, 可選) — 用於初始化 `BridgeTowerTextConfig` 的配置選項字典。
vision_config (dict, 可選) — 用於初始化 `BridgeTowerVisionConfig` 的配置選項字典。

這是用於儲存 `BridgeTowerModel` 配置的配置類。它用於根據指定的引數例項化 BridgeTower 模型，定義模型架構。使用預設值例項化配置將產生類似於 bridgetower-base BridgeTower/bridgetower-base 架構的配置。

配置物件繼承自 `PretrainedConfig`，可用於控制模型輸出。有關更多資訊，請閱讀 `PretrainedConfig` 的文件。

示例

>>> from transformers import BridgeTowerModel, BridgeTowerConfig

>>> # Initializing a BridgeTower BridgeTower/bridgetower-base style configuration
>>> configuration = BridgeTowerConfig()

>>> # Initializing a model from the BridgeTower/bridgetower-base style configuration
>>> model = BridgeTowerModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

from_text_vision_configs

( text_config: BridgeTowerTextConfig vision_config: BridgeTowerVisionConfig **kwargs )

從 BridgeTower 文字模型配置例項化 `BridgeTowerConfig`（或派生類）。返回：`BridgeTowerConfig`：配置物件的一個例項。

BridgeTowerTextConfig

class transformers.BridgeTowerTextConfig

( vocab_size = 50265 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 initializer_factor = 1 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 514 type_vocab_size = 1 layer_norm_eps = 1e-05 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 position_embedding_type = 'absolute' use_cache = True **kwargs )

引數

vocab_size (int, 可選, 預設為 50265) — 模型文字部分的詞彙表大小。定義了呼叫 `BridgeTowerModel` 時可以由 inputs_ids 表示的不同 token 的數量。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化器層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（通常稱為前饋）層的維度。
hidden_act (str 或 Callable, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu", "relu", "silu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化器中所有全連線層的 dropout 機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.1) — 注意力機率的 dropout 比率。
max_position_embeddings (int, 可選, 預設為 514) — 此模型可能使用的最大序列長度。通常設定為較大值以防萬一（例如，512、1024 或 2048）。
type_vocab_size (int, 可選, 預設為 2) — token_type_ids 的詞彙表大小。
initializer_factor (float, 可選, 預設為 1) — 初始化所有權重矩陣的因子（應保持為 1，內部用於初始化測試）。
layer_norm_eps (float, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。
position_embedding_type (str, 可選, 預設為 "absolute") — 位置嵌入的型別。選擇 "absolute"、"relative_key"、"relative_key_query" 之一。對於位置嵌入，使用 "absolute"。有關 "relative_key" 的更多資訊，請參閱 Self-Attention with Relative Position Representations (Shaw et al.)。有關 "relative_key_query" 的更多資訊，請參閱 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的 *方法 4*。
is_decoder (bool, 可選, 預設為 False) — 模型是否用作解碼器。如果為 False，則模型用作編碼器。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。僅當 config.is_decoder=True 時相關。

這是用於儲存 `BridgeTowerModel` 文字配置的配置類。這裡的預設值複製自 RoBERTa。使用預設值例項化配置將產生類似於 bridgetower-base BridgeTower/bridgetower-base 架構的配置。

配置物件繼承自 `PretrainedConfig`，可用於控制模型輸出。有關更多資訊，請閱讀 `PretrainedConfig` 的文件。

示例

>>> from transformers import BridgeTowerTextConfig

>>> # Initializing a BridgeTower BridgeTower/bridgetower-base style configuration for the text model
>>> configuration = BridgeTowerTextConfig()

>>> # Accessing the configuration
>>> configuration

BridgeTowerVisionConfig

class transformers.BridgeTowerVisionConfig

( hidden_size = 768 num_hidden_layers = 12 num_channels = 3 patch_size = 16 image_size = 288 initializer_factor = 1 layer_norm_eps = 1e-05 stop_gradient = False share_layernorm = True remove_last_layer = False **kwargs )

引數

hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層維度。
num_hidden_layers (int, 可選, 預設為 12) — 視覺編碼器模型中的隱藏層數量。
patch_size (int, 可選, 預設為 16) — 每個補丁的大小（解析度）。
image_size (int, 可選, 預設為 288) — 每個影像的大小（解析度）。
initializer_factor (float, 可選, 預設為 1) — 用於初始化所有權重矩陣的因子（應保持為 1，內部用於初始化測試）。
layer_norm_eps (float, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。
stop_gradient (bool, 可選, 預設為 False) — 是否停止訓練梯度。
share_layernorm (bool, 可選, 預設為 True) — 層歸一化層是否共享。
remove_last_layer (bool, 可選, 預設為 False) — 是否從視覺編碼器中移除最後一層。

這是用於儲存 BridgeTowerModel 的視覺配置的配置類。使用預設值例項化配置將生成與 bridgetower-base BridgeTower/bridgetower-base 架構類似的配置。

配置物件繼承自 `PretrainedConfig`，可用於控制模型輸出。有關更多資訊，請閱讀 `PretrainedConfig` 的文件。

示例

>>> from transformers import BridgeTowerVisionConfig

>>> # Initializing a BridgeTower BridgeTower/bridgetower-base style configuration for the vision model
>>> configuration = BridgeTowerVisionConfig()

>>> # Accessing the configuration
>>> configuration

BridgeTowerImageProcessor

class transformers.BridgeTowerImageProcessor

( do_resize: bool = True size: typing.Optional[dict[str, int]] = None size_divisor: int = 32 resample: Resampling = <Resampling.BICUBIC: 3> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_center_crop: bool = True crop_size: typing.Optional[dict[str, int]] = None do_pad: bool = True **kwargs )

引數

do_resize (bool, 可選, 預設為 True) — 是否將影像的高度和寬度尺寸調整為指定大小。可以透過preprocess方法中的do_resize引數覆蓋。
size (dict[str, int] 可選, 預設為 {'shortest_edge' -- 288})：將輸入的最短邊調整為size["shortest_edge"]。在保持寬高比的同時，較長邊將被限制在int((1333 / 800) * size["shortest_edge"])以下。僅當do_resize設定為True時有效。可以透過preprocess方法中的size引數覆蓋。
size_divisor (int, 可選, 預設為 32) — 確保高度和寬度都可以被此值整除的大小。僅當do_resize設定為True時有效。可以透過preprocess方法中的size_divisor引數覆蓋。
resample (PILImageResampling, 可選, 預設為 Resampling.BICUBIC) — 如果調整影像大小，則使用的重取樣過濾器。僅當do_resize設定為True時有效。可以透過preprocess方法中的resample引數覆蓋。
do_rescale (bool, 可選, 預設為 True) — 是否按指定的rescale_factor縮放影像。可以透過preprocess方法中的do_rescale引數覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 如果縮放影像，則使用的縮放因子。僅當do_rescale設定為True時有效。可以透過preprocess方法中的rescale_factor引數覆蓋。
do_normalize (bool, 可選, 預設為 True) — 是否歸一化影像。可以透過preprocess方法中的do_normalize引數覆蓋。
image_mean (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_MEAN) — 如果歸一化影像，則使用的均值。這是一個浮點數或浮點數列表，長度與影像中的通道數相同。可以透過preprocess方法中的image_mean引數覆蓋。
image_std (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_STD) — 如果歸一化影像，則使用的標準差。這是一個浮點數或浮點數列表，長度與影像中的通道數相同。可以透過preprocess方法中的image_std引數覆蓋。
do_center_crop (bool, 可選, 預設為 True) — 是否中心裁剪影像。可以透過preprocess方法中的do_center_crop引數覆蓋。
crop_size (dict[str, int], 可選) — 應用中心裁剪時所需的輸出大小。僅當do_center_crop設定為True時有效。可以透過preprocess方法中的crop_size引數覆蓋。如果未設定，則預設為size。
do_pad (bool, 可選, 預設為 True) — 是否將影像填充到批次中影像的 (max_height, max_width)。可以透過preprocess方法中的do_pad引數覆蓋。

構建 BridgeTower 影像處理器。

preprocess

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None size_divisor: typing.Optional[int] = None resample: Resampling = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None do_center_crop: typing.Optional[bool] = None crop_size: typing.Optional[dict[str, int]] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )

引數

images (ImageInput) — 要預處理的影像。期望畫素值範圍為0到255的單張或批次影像。如果傳入畫素值在0到1之間的影像，請設定do_rescale=False。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 控制resize後圖像的大小。影像的最短邊被調整為size["shortest_edge"]，同時保持寬高比。如果此調整大小後的影像的最長邊大於int(size["shortest_edge"] * (1333 / 800))，則影像將再次調整大小，使最長邊等於int(size["shortest_edge"] * (1333 / 800))。
size_divisor (int, 可選, 預設為 self.size_divisor) — 影像被調整為該值的倍數。
resample (PILImageResampling, 可選, 預設為 self.resample) — 如果調整影像大小，則使用的重取樣過濾器。僅當do_resize設定為True時有效。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否將影像值縮放到 [0 - 1] 之間。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果do_rescale設定為True，則用於縮放影像的縮放因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否歸一化影像。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 如果do_normalize設定為True，則用於歸一化影像的影像均值。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 如果do_normalize設定為True，則用於歸一化影像的影像標準差。
do_pad (bool, 可選, 預設為 self.do_pad) — 是否將影像填充到批次中的(max_height, max_width)。如果為True，還會建立並返回一個畫素掩碼。
do_center_crop (bool, 可選, 預設為 self.do_center_crop) — 是否中心裁剪影像。如果輸入大小沿任何邊小於crop_size，則影像將用0填充，然後進行中心裁剪。
crop_size (dict[str, int], 可選, 預設為 self.crop_size) — 中心裁剪後圖像的大小。如果影像的某個邊小於crop_size，它將用零填充然後裁剪。
return_tensors (str 或 TensorType, 可選) — 要返回的張量型別。可以是以下之一：
- 未設定：返回 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf'：返回 tf.Tensor 型別的批處理。
- TensorType.PYTORCH 或 'pt'：返回 torch.Tensor 型別的批處理。
- TensorType.NUMPY 或 'np'：返回 np.ndarray 型別的批處理。
- TensorType.JAX 或 'jax'：返回 jax.numpy.ndarray 型別的批處理。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- 未設定：使用輸入影像的通道維度格式。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，通道維度格式將從輸入影像推斷。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。

預處理一張或一批影像。

BridgeTowerImageProcessorFast

class transformers.BridgeTowerImageProcessorFast

( **kwargs: typing_extensions.Unpack[transformers.models.bridgetower.image_processing_bridgetower_fast.BridgeTowerFastImageProcessorKwargs] )

構建一個快速 BridgeTower 影像處理器。

preprocess

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.bridgetower.image_processing_bridgetower_fast.BridgeTowerFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>

引數

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 要預處理的影像。期望畫素值範圍為0到255的單張或批次影像。如果傳入畫素值在0到1之間的影像，請設定do_rescale=False。
do_resize (bool, 可選) — 是否調整影像大小。
size (dict[str, int], 可選) — 描述模型的最大輸入維度。
default_to_square (bool, 可選) — 當調整大小（如果大小為整數）時，是否預設為正方形影像。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像大小，則使用的重取樣濾波器。這可以是列舉 PILImageResampling 之一。僅當 do_resize 設定為 True 時才有效。
do_center_crop (bool, optional) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], optional) — 應用 center_crop 後輸出影像的大小。
do_rescale (bool, optional) — 是否對影像進行重新縮放。
rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 設定為 True，則用於重新縮放影像的縮放因子。
do_normalize (bool, optional) — 是否對影像進行歸一化。
image_mean (Union[float, list[float], NoneType]) — 用於歸一化的影像平均值。僅當 do_normalize 設定為 True 時才有效。
image_std (Union[float, list[float], NoneType]) — 用於歸一化的影像標準差。僅當 do_normalize 設定為 True 時才有效。
do_convert_rgb (bool, optional) — 是否將影像轉換為RGB。
return_tensors (Union[str, ~utils.generic.TensorType, NoneType]) — 如果設定為 `pt`，則返回堆疊張量，否則返回張量列表。
data_format (~image_utils.ChannelDimension, optional) — 僅支援 ChannelDimension.FIRST。為與慢速處理器相容而新增。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定，則從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
- "none" 或 ChannelDimension.NONE：影像為 (height, width) 格式。
device (torch.device, optional) — 處理影像的裝置。如果未設定，則從輸入影像推斷裝置。
disable_grouping (bool, optional) — 是否停用按大小對影像進行分組以單獨處理而不是批處理。如果為 None，則如果影像在 CPU 上，則設定為 True，否則設定為 False。此選擇基於經驗觀察，詳情請見：https://github.com/huggingface/transformers/pull/38157
size_divisor (int, optional, defaults to 32) — 確保高度和寬度都可以被其整除的大小。僅當 do_resize 設定為 True 時才有效。可以透過 preprocess 方法中的 size_divisor 引數覆蓋。
do_pad (bool, optional, defaults to True) — 是否將影像填充到批處理影像的 (max_height, max_width)。可以透過 preprocess 方法中的 do_pad 引數覆蓋。

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/陣列/張量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`，以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

BridgeTowerProcessor

class transformers.BridgeTowerProcessor

( image_processor tokenizer )

引數

image_processor (BridgeTowerImageProcessor) — BridgeTowerImageProcessor 的例項。影像處理器是必需輸入。
tokenizer (RobertaTokenizerFast) — [‘RobertaTokenizerFast`] 的例項。分詞器是必需輸入。

構建一個 BridgeTower 處理器，它將 Roberta 分詞器和 BridgeTower 影像處理器封裝到一個處理器中。

BridgeTowerProcessor 提供 BridgeTowerImageProcessor 和 RobertaTokenizerFast 的所有功能。有關更多資訊，請參閱 call() 和 decode() 的文件字串。

call

( images text: typing.Union[str, list[str], list[list[str]]] = None audio = None videos = None **kwargs: typing_extensions.Unpack[transformers.models.bridgetower.processing_bridgetower.BridgeTowerProcessorKwargs] )

此方法使用 BridgeTowerImageProcessor.call() 方法準備模型影像，並使用 RobertaTokenizerFast.call() 準備模型文字。

有關更多資訊，請參閱上述兩種方法的文件字串。

BridgeTowerModel

class transformers.BridgeTowerModel

( config )

引數

config (BridgeTowerModel) — 包含模型所有引數的模型配置類。用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

不帶任何特定頭部的裸 BridgeTower 模型 transformer，輸出 BridgeTowerModelOutput 物件

此模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組，並參考 PyTorch 文件中所有與通用用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None image_token_type_idx: typing.Optional[int] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None labels: typing.Optional[torch.LongTensor] = None interpolate_pos_encoding: bool = False ) → transformers.models.bridgetower.modeling_bridgetower.BridgeTowerModelOutput or tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor, 形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列 token 的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.FloatTensor, 形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示 未被遮蓋 的 token，
- 0 表示 被遮蓋 的 token。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor, 形狀為 (batch_size, sequence_length), 可選) — 表示輸入第一部分和第二部分的段 token 索引。索引在 [0, 1] 中選擇：
- 0 對應於 句子 A token，
- 1 對應於 句子 B token。
什麼是 token 型別 ID？
pixel_values (torch.FloatTensor, 形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_mask (torch.LongTensor, 形狀為 (batch_size, height, width), 可選) — 用於避免對填充畫素值執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示真實畫素（即 未被遮蓋），
- 0 表示填充畫素（即 被遮蓋）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor, 形狀為 (num_heads,) 或 (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部 未被遮蓋，
- 0 表示頭部 被遮蓋。
inputs_embeds (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size), 可選) — （可選）不傳遞 input_ids，您可以選擇直接傳遞嵌入表示。如果您希望對如何將 input_ids 索引轉換為關聯向量（而不是模型的內部嵌入查詢矩陣）有更多控制，這很有用。
image_embeds (torch.FloatTensor, 形狀為 (batch_size, num_patches, hidden_size), 可選) — （可選）不傳遞 pixel_values，您可以選擇直接傳遞嵌入表示。如果您希望對如何將 pixel_values 轉換為補丁嵌入有更多控制，這很有用。
image_token_type_idx (int, 可選) —
- 影像的 token 型別 ID。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 如果設定為 True，隱藏狀態將作為包含文字、影像和跨模態元件隱藏狀態的列表返回。即 (hidden_states_text, hidden_states_image, hidden_states_cross_modal)，其中每個元素是相應模態隱藏狀態的列表。hidden_states_txt/img 是單模態隱藏狀態張量列表，hidden_states_cross_modal 是包含每個橋接層 cross_modal_text_hidden_states 和 cross_modal_image_hidden_states 的元組列表。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是純元組。
labels (torch.LongTensor, 形狀為 (batch_size,), 可選) — 目前不支援標籤。
interpolate_pos_encoding (bool, 預設為 False) — 是否對預訓練位置編碼進行插值。

transformers.models.bridgetower.modeling_bridgetower.BridgeTowerModelOutput 或 tuple(torch.FloatTensor)

transformers.models.bridgetower.modeling_bridgetower.BridgeTowerModelOutput 或 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BridgeTowerConfig）和輸入包含各種元素。

text_features (torch.FloatTensor, 形狀為 (batch_size, text_sequence_length, hidden_size)) — 模型最後一層文字輸出處的隱藏狀態序列。
image_features (torch.FloatTensor, 形狀為 (batch_size, image_sequence_length, hidden_size)) — 模型最後一層影像輸出處的隱藏狀態序列。
pooler_output (torch.FloatTensor, 形狀為 (batch_size, hidden_size x 2)) — 在透過用於輔助預訓練任務的層進一步處理後，文字和影像序列的第一個 token 的最後一層隱藏狀態的拼接（分類 token）。
hidden_states (tuple[torch.FloatTensor], 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則一個用於嵌入輸出，加上一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor], 可選, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

BridgeTowerModel 的 forward 方法，重寫了 __call__ 特殊方法。

儘管前向傳播的配方需要在此函式中定義，但在此之後應該呼叫 Module 例項，而不是直接呼叫此函式，因為前者負責執行預處理和後處理步驟，而後者會默默地忽略它們。

示例

>>> from transformers import BridgeTowerProcessor, BridgeTowerModel
>>> from PIL import Image
>>> import requests

>>> # prepare image and text
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "hello world"
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base")
>>> model = BridgeTowerModel.from_pretrained("BridgeTower/bridgetower-base")

>>> inputs = processor(image, text, return_tensors="pt")
>>> outputs = model(**inputs)
>>> outputs.keys()
odict_keys(['text_features', 'image_features', 'pooler_output'])

BridgeTowerForContrastiveLearning

class transformers.BridgeTowerForContrastiveLearning

( config )

引數

config (BridgeTowerForContrastiveLearning) — 包含模型所有引數的模型配置類。用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

BridgeTower 模型頂部帶有一個影像-文字對比頭部，計算影像-文字對比損失。

此模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組，並參考 PyTorch 文件中所有與通用用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = True return_dict: typing.Optional[bool] = None return_loss: typing.Optional[bool] = None ) → transformers.models.bridgetower.modeling_bridgetower.BridgeTowerContrastiveOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor, 形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列 token 的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.FloatTensor, 形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示 未被遮蓋 的 token，
- 0 表示 被遮蓋 的 token。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor, 形狀為 (batch_size, sequence_length), 可選) — 表示輸入第一部分和第二部分的段 token 索引。索引在 [0, 1] 中選擇：
- 0 對應於 句子 A token，
- 1 對應於 句子 B token。
什麼是 token 型別 ID？
pixel_values (torch.FloatTensor, 形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_mask (torch.LongTensor, 形狀為 (batch_size, height, width), 可選) — 用於避免對填充畫素值執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示真實畫素（即 未被遮蓋），
- 0 表示填充畫素（即 被遮蓋）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor, 形狀為 (num_heads,) 或 (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部 未被遮蓋，
- 0 表示頭部 被遮蓋。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選引數，可以直接傳入嵌入表示，而不是傳入 input_ids。當您想要比模型內部嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量時，此引數非常有用。
image_embeds (torch.FloatTensor，形狀為 (batch_size, num_patches, hidden_size)，可選) — 可選引數，可以直接傳入嵌入表示，而不是傳入 pixel_values。當您想要更好地控制如何將 pixel_values 轉換為補丁嵌入時，此引數非常有用。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量下的 attentions。
output_hidden_states (bool, 可選, 預設為 True) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。
return_loss (bool, 可選) — 是否返回對比損失。

transformers.models.bridgetower.modeling_bridgetower.BridgeTowerContrastiveOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.bridgetower.modeling_bridgetower.BridgeTowerContrastiveOutput 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置（BridgeTowerConfig）和輸入而異的各種元素。

loss (torch.FloatTensor，形狀為 (1,)，可選，當 return_loss 為 True 時返回) — 影像-文字對比損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
text_embeds (torch.FloatTensor)，可選，當模型使用 with_projection=True 初始化時返回) — 透過對 pooler_output 應用投影層獲得的文字嵌入。
image_embeds (torch.FloatTensor)，可選，當模型使用 with_projection=True 初始化時返回) — 透過對 pooler_output 應用投影層獲得的影像嵌入。
cross_embeds (torch.FloatTensor)，可選，當模型使用 with_projection=True 初始化時返回) — 透過對 pooler_output 應用投影層獲得的文字-影像跨模態嵌入。
hidden_states (tuple[torch.FloatTensor], 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則一個用於嵌入輸出，加上一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當 output_attentions=True 或 config.output_attentions=True 傳入時返回) — torch.FloatTensor 元組 (每層一個)，形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

BridgeTowerForContrastiveLearning 的 forward 方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import BridgeTowerProcessor, BridgeTowerForContrastiveLearning
>>> import requests
>>> from PIL import Image
>>> import torch

>>> image_urls = [
...     "https://farm4.staticflickr.com/3395/3428278415_81c3e27f15_z.jpg",
...     "http://images.cocodataset.org/val2017/000000039769.jpg",
... ]
>>> texts = ["two dogs in a car", "two cats sleeping on a couch"]
>>> images = [Image.open(requests.get(url, stream=True).raw) for url in image_urls]

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")
>>> model = BridgeTowerForContrastiveLearning.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")

>>> inputs = processor(images, texts, padding=True, return_tensors="pt")
>>> loss = model(**inputs, return_loss=True).loss

>>> inputs = processor(images, texts[::-1], padding=True, return_tensors="pt")
>>> loss_swapped = model(**inputs, return_loss=True).loss

>>> print("Loss", round(loss.item(), 4))
Loss 0.0019

>>> print("Loss with swapped images", round(loss_swapped.item(), 4))
Loss with swapped images 2.126

BridgeTowerForMaskedLM

class transformers.BridgeTowerForMaskedLM

( config )

引數

config (BridgeTowerForMaskedLM) — 模型配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法以載入模型權重。

BridgeTower 模型，在預訓練期間在頂部添加了一個語言建模頭。

此模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組，並參考 PyTorch 文件中所有與通用用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None labels: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參見 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.FloatTensor，形狀為 (batch_size, sequence_length)，可選) — 掩碼，用於避免對填充標記索引執行注意力操作。掩碼值選擇在 [0, 1] 之間：
- 1 表示未掩碼的標記，
- 0 表示已掩碼的標記。
什麼是注意力掩碼？
token_type_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 分段標記索引，用於指示輸入的第一個和第二個部分。索引選擇在 [0, 1] 之間：
- 0 對應於句子 A 標記，
- 1 對應於句子 B 標記。
什麼是標記型別 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲得。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 進行影像處理）。
pixel_mask (torch.LongTensor，形狀為 (batch_size, height, width)，可選) — 掩碼，用於避免對填充畫素值執行注意力操作。掩碼值選擇在 [0, 1] 之間：
- 1 表示真實畫素（即未掩碼），
- 0 表示填充畫素（即已掩碼）。
什麼是注意力掩碼？
head_mask (torch.FloatTensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 掩碼，用於使自注意力模組的選定頭失效。掩碼值選擇在 [0, 1] 之間：
- 1 表示頭部未掩碼，
- 0 表示頭部已掩碼。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選引數，可以直接傳入嵌入表示，而不是傳入 input_ids。當您想要比模型內部嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量時，此引數非常有用。
image_embeds (torch.FloatTensor，形狀為 (batch_size, num_patches, hidden_size)，可選) — 可選引數，可以直接傳入嵌入表示，而不是傳入 pixel_values。當您想要更好地控制如何將 pixel_values 轉換為補丁嵌入時，此引數非常有用。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算掩碼語言模型損失的標籤。索引應在 [-100, 0, ..., config.vocab_size] 之間（參見 input_ids 文件字串）。索引設定為 -100 的標記將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 範圍內的標記進行計算。

transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.MaskedLMOutput 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置（BridgeTowerConfig）和輸入而異的各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 掩碼語言建模 (MLM) 損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor), 可選, 當 output_hidden_states=True 或 config.output_hidden_states=True 傳入時返回) — torch.FloatTensor 元組（一個用於嵌入層輸出（如果模型有嵌入層），加上每個層的一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當 output_attentions=True 或 config.output_attentions=True 傳入時返回) — torch.FloatTensor 元組 (每層一個)，形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

BridgeTowerForMaskedLM 的 forward 方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import BridgeTowerProcessor, BridgeTowerForMaskedLM
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000360943.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
>>> text = "a <mask> looking out of the window"

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForMaskedLM.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")

>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")

>>> # forward pass
>>> outputs = model(**encoding)

>>> results = processor.decode(outputs.logits.argmax(dim=-1).squeeze(0).tolist())

>>> print(results)
.a cat looking out of the window.

BridgeTowerForImageAndTextRetrieval

class transformers.BridgeTowerForImageAndTextRetrieval

( config )

引數

config (BridgeTowerForImageAndTextRetrieval) — 模型配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法以載入模型權重。

BridgeTower 模型 transformer，頂部帶有一個分類器頭（[CLS] token 最終隱藏狀態頂部的線性層），用於影像到文字的匹配。

此模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組，並參考 PyTorch 文件中所有與通用用法和行為相關的事項。

forward