Transformers 文件
BridgeTower
並獲得增強的文件體驗
開始使用
BridgeTower
概述
BridgeTower 模型由 Xiao Xu、Chenfei Wu、Shachar Rosenman、Vasudev Lal、Wanxiang Che 和 Nan Duan 在論文《BridgeTower: Building Bridges Between Encoders in Vision-Language Representative Learning》中提出。該模型的目的是在每個單模態編碼器和跨模態編碼器之間建立橋樑,以在跨模態編碼器的每個層中實現全面而詳細的互動,從而在各種下游任務上以幾乎可以忽略不計的額外效能和計算成本獲得卓越的效能。
這篇論文已被 AAAI’23 會議接受。
論文摘要如下:
近年來,採用雙塔架構的視覺語言(VL)模型在視覺語言表示學習中佔據主導地位。當前的 VL 模型要麼使用輕量級單模態編碼器,並在深度跨模態編碼器中同時學習提取、對齊和融合兩種模態,要麼將深度預訓練單模態編碼器中的最後一層單模態表示饋送到頂部跨模態編碼器中。這兩種方法都可能限制視覺語言表示學習並限制模型效能。在本文中,我們提出了 BRIDGETOWER,它引入了多個橋接層,在單模態編碼器的頂層和跨模態編碼器的每個層之間建立連線。這使得跨模態編碼器中預訓練單模態編碼器不同語義級別的視覺和文字表示之間能夠進行有效的自下而上的跨模態對齊和融合。BRIDGETOWER 僅使用 400 萬張影像進行預訓練,就在各種下游視覺語言任務上實現了最先進的效能。特別是在 VQAv2 測試集上,BRIDGETOWER 取得了 78.73% 的準確率,比之前使用相同預訓練資料且額外引數和計算成本幾乎可以忽略不計的最先進模型 METER 高出 1.09%。值得注意的是,當進一步擴充套件模型時,BRIDGETOWER 取得了 81.15% 的準確率,超越了在數量級更大的資料集上預訓練的模型。

該模型由 Anahita Bhiwandiwalla、Tiep Le 和 Shaoyen Tseng 貢獻。原始程式碼可以在這裡找到。
使用技巧和示例
BridgeTower 由一個視覺編碼器、一個文字編碼器和帶有多個輕量級橋接層的跨模態編碼器組成。這種方法的目的是在每個單模態編碼器和跨模態編碼器之間建立橋樑,以在跨模態編碼器的每個層中實現全面而詳細的互動。原則上,可以在所提出的架構中應用任何視覺、文字或跨模態編碼器。
`BridgeTowerProcessor` 將 `RobertaTokenizer` 和 `BridgeTowerImageProcessor` 封裝到單個例項中,分別用於編碼文字和準備影像。
以下示例演示如何使用 `BridgeTowerProcessor` 和 `BridgeTowerForContrastiveLearning` 執行對比學習。
>>> from transformers import BridgeTowerProcessor, BridgeTowerForContrastiveLearning
>>> import requests
>>> from PIL import Image
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")
>>> model = BridgeTowerForContrastiveLearning.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")
>>> # forward pass
>>> scores = dict()
>>> for text in texts:
... # prepare inputs
... encoding = processor(image, text, return_tensors="pt")
... outputs = model(**encoding)
... scores[text] = outputs
以下示例演示如何使用 `BridgeTowerProcessor` 和 `BridgeTowerForImageAndTextRetrieval` 執行影像-文字檢索。
>>> from transformers import BridgeTowerProcessor, BridgeTowerForImageAndTextRetrieval
>>> import requests
>>> from PIL import Image
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForImageAndTextRetrieval.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> # forward pass
>>> scores = dict()
>>> for text in texts:
... # prepare inputs
... encoding = processor(image, text, return_tensors="pt")
... outputs = model(**encoding)
... scores[text] = outputs.logits[0, 1].item()
以下示例演示如何使用 `BridgeTowerProcessor` 和 `BridgeTowerForMaskedLM` 執行掩碼語言建模。
>>> from transformers import BridgeTowerProcessor, BridgeTowerForMaskedLM
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000360943.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
>>> text = "a <mask> looking out of the window"
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForMaskedLM.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")
>>> # forward pass
>>> outputs = model(**encoding)
>>> results = processor.decode(outputs.logits.argmax(dim=-1).squeeze(0).tolist())
>>> print(results)
.a cat looking out of the window.
技巧
- 此 BridgeTower 實現使用 `RobertaTokenizer` 生成文字嵌入,並使用 OpenAI 的 CLIP/ViT 模型計算視覺嵌入。
- 已釋出預訓練的 `bridgetower-base` 和 `bridgetower` 掩碼語言建模和影像文字匹配檢查點。
- 有關 BridgeTower 在影像檢索和其他下游任務上的效能,請參閱表 5。
- 此模型的 PyTorch 版本僅在 torch 1.10 及更高版本中可用。
BridgeTowerConfig
class transformers.BridgeTowerConfig
< 來源 >( share_cross_modal_transformer_layers = True hidden_act = 'gelu' hidden_size = 768 initializer_factor = 1 layer_norm_eps = 1e-05 share_link_tower_layers = False link_tower_type = 'add' num_attention_heads = 12 num_hidden_layers = 6 tie_word_embeddings = False init_layernorm_from_vision_encoder = False text_config = None vision_config = None **kwargs )
引數
- share_cross_modal_transformer_layers (
bool
, 可選, 預設為True
) — 跨模態 transformer 層是否共享。 - hidden_act (
str
或function
, 可選, 預設為"gelu"
) — 編碼器和池化器中的非線性啟用函式(函式或字串)。 - hidden_size (
int
, 可選, 預設為 768) — 編碼器層和池化器層的維度。 - initializer_factor (
float
, 可選, 預設為 1) — 初始化所有權重矩陣的因子(應保持為 1,內部用於初始化測試)。 - layer_norm_eps (
float
, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。 - share_link_tower_layers (
bool
, 可選, 預設為False
) — 橋接/連結塔層是否共享。 - link_tower_type (
str
, 可選, 預設為"add"
) — 橋接/連結層的型別。 - num_attention_heads (
int
, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。 - num_hidden_layers (
int
, 可選, 預設為 6) — Transformer 編碼器中的隱藏層數量。 - tie_word_embeddings (
bool
, 可選, 預設為False
) — 是否繫結輸入和輸出嵌入。 - init_layernorm_from_vision_encoder (
bool
, 可選, 預設為False
) — 是否從視覺編碼器初始化 LayerNorm。 - text_config (
dict
, 可選) — 用於初始化 `BridgeTowerTextConfig` 的配置選項字典。 - vision_config (
dict
, 可選) — 用於初始化 `BridgeTowerVisionConfig` 的配置選項字典。
這是用於儲存 `BridgeTowerModel` 配置的配置類。它用於根據指定的引數例項化 BridgeTower 模型,定義模型架構。使用預設值例項化配置將產生類似於 bridgetower-base BridgeTower/bridgetower-base 架構的配置。
配置物件繼承自 `PretrainedConfig`,可用於控制模型輸出。有關更多資訊,請閱讀 `PretrainedConfig` 的文件。
示例
>>> from transformers import BridgeTowerModel, BridgeTowerConfig
>>> # Initializing a BridgeTower BridgeTower/bridgetower-base style configuration
>>> configuration = BridgeTowerConfig()
>>> # Initializing a model from the BridgeTower/bridgetower-base style configuration
>>> model = BridgeTowerModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
from_text_vision_configs
< 來源 >( text_config: BridgeTowerTextConfig vision_config: BridgeTowerVisionConfig **kwargs )
從 BridgeTower 文字模型配置例項化 `BridgeTowerConfig`(或派生類)。返回:`BridgeTowerConfig`:配置物件的一個例項。
BridgeTowerTextConfig
class transformers.BridgeTowerTextConfig
< 來源 >( vocab_size = 50265 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 initializer_factor = 1 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 514 type_vocab_size = 1 layer_norm_eps = 1e-05 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 position_embedding_type = 'absolute' use_cache = True **kwargs )
引數
- vocab_size (
int
, 可選, 預設為 50265) — 模型文字部分的詞彙表大小。定義了呼叫 `BridgeTowerModel` 時可以由inputs_ids
表示的不同 token 的數量。 - hidden_size (
int
, 可選, 預設為 768) — 編碼器層和池化器層的維度。 - num_hidden_layers (
int
, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。 - num_attention_heads (
int
, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。 - intermediate_size (
int
, 可選, 預設為 3072) — Transformer 編碼器中“中間”(通常稱為前饋)層的維度。 - hidden_act (
str
或Callable
, 可選, 預設為"gelu"
) — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,則支援"gelu"
,"relu"
,"silu"
和"gelu_new"
。 - hidden_dropout_prob (
float
, 可選, 預設為 0.1) — 嵌入層、編碼器和池化器中所有全連線層的 dropout 機率。 - attention_probs_dropout_prob (
float
, 可選, 預設為 0.1) — 注意力機率的 dropout 比率。 - max_position_embeddings (
int
, 可選, 預設為 514) — 此模型可能使用的最大序列長度。通常設定為較大值以防萬一(例如,512、1024 或 2048)。 - type_vocab_size (
int
, 可選, 預設為 2) —token_type_ids
的詞彙表大小。 - initializer_factor (
float
, 可選, 預設為 1) — 初始化所有權重矩陣的因子(應保持為 1,內部用於初始化測試)。 - layer_norm_eps (
float
, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。 - position_embedding_type (
str
, 可選, 預設為"absolute"
) — 位置嵌入的型別。選擇"absolute"
、"relative_key"
、"relative_key_query"
之一。對於位置嵌入,使用"absolute"
。有關"relative_key"
的更多資訊,請參閱 Self-Attention with Relative Position Representations (Shaw et al.)。有關"relative_key_query"
的更多資訊,請參閱 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的 *方法 4*。 - is_decoder (
bool
, 可選, 預設為False
) — 模型是否用作解碼器。如果為False
,則模型用作編碼器。 - use_cache (
bool
, 可選, 預設為True
) — 模型是否應返回最後一個鍵/值注意力(並非所有模型都使用)。僅當config.is_decoder=True
時相關。
這是用於儲存 `BridgeTowerModel` 文字配置的配置類。這裡的預設值複製自 RoBERTa。使用預設值例項化配置將產生類似於 bridgetower-base BridgeTower/bridgetower-base 架構的配置。
配置物件繼承自 `PretrainedConfig`,可用於控制模型輸出。有關更多資訊,請閱讀 `PretrainedConfig` 的文件。
BridgeTowerVisionConfig
class transformers.BridgeTowerVisionConfig
< source 源 >( hidden_size = 768 num_hidden_layers = 12 num_channels = 3 patch_size = 16 image_size = 288 initializer_factor = 1 layer_norm_eps = 1e-05 stop_gradient = False share_layernorm = True remove_last_layer = False **kwargs )
引數
- hidden_size (
int
, 可選, 預設為 768) — 編碼器層和池化層維度。 - num_hidden_layers (
int
, 可選, 預設為 12) — 視覺編碼器模型中的隱藏層數量。 - patch_size (
int
, 可選, 預設為 16) — 每個補丁的大小(解析度)。 - image_size (
int
, 可選, 預設為 288) — 每個影像的大小(解析度)。 - initializer_factor (
float
, 可選, 預設為 1) — 用於初始化所有權重矩陣的因子(應保持為 1,內部用於初始化測試)。 - layer_norm_eps (
float
, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。 - stop_gradient (
bool
, 可選, 預設為False
) — 是否停止訓練梯度。 - share_layernorm (
bool
, 可選, 預設為True
) — 層歸一化層是否共享。 - remove_last_layer (
bool
, 可選, 預設為False
) — 是否從視覺編碼器中移除最後一層。
這是用於儲存 BridgeTowerModel 的視覺配置的配置類。使用預設值例項化配置將生成與 bridgetower-base BridgeTower/bridgetower-base 架構類似的配置。
配置物件繼承自 `PretrainedConfig`,可用於控制模型輸出。有關更多資訊,請閱讀 `PretrainedConfig` 的文件。
BridgeTowerImageProcessor
class transformers.BridgeTowerImageProcessor
< source 源 >( do_resize: bool = True size: typing.Optional[dict[str, int]] = None size_divisor: int = 32 resample: Resampling = <Resampling.BICUBIC: 3> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_center_crop: bool = True crop_size: typing.Optional[dict[str, int]] = None do_pad: bool = True **kwargs )
引數
- do_resize (
bool
, 可選, 預設為True
) — 是否將影像的高度和寬度尺寸調整為指定大小
。可以透過preprocess
方法中的do_resize
引數覆蓋。 - size (
dict[str, int]
可選, 預設為{'shortest_edge' -- 288}
):將輸入的最短邊調整為size["shortest_edge"]
。在保持寬高比的同時,較長邊將被限制在int((1333 / 800) * size["shortest_edge"])
以下。僅當do_resize
設定為True
時有效。可以透過preprocess
方法中的size
引數覆蓋。 - size_divisor (
int
, 可選, 預設為 32) — 確保高度和寬度都可以被此值整除的大小。僅當do_resize
設定為True
時有效。可以透過preprocess
方法中的size_divisor
引數覆蓋。 - resample (
PILImageResampling
, 可選, 預設為Resampling.BICUBIC
) — 如果調整影像大小,則使用的重取樣過濾器。僅當do_resize
設定為True
時有效。可以透過preprocess
方法中的resample
引數覆蓋。 - do_rescale (
bool
, 可選, 預設為True
) — 是否按指定的rescale_factor
縮放影像。可以透過preprocess
方法中的do_rescale
引數覆蓋。 - rescale_factor (
int
或float
, 可選, 預設為1/255
) — 如果縮放影像,則使用的縮放因子。僅當do_rescale
設定為True
時有效。可以透過preprocess
方法中的rescale_factor
引數覆蓋。 - do_normalize (
bool
, 可選, 預設為True
) — 是否歸一化影像。可以透過preprocess
方法中的do_normalize
引數覆蓋。 - image_mean (
float
或list[float]
, 可選, 預設為IMAGENET_STANDARD_MEAN
) — 如果歸一化影像,則使用的均值。這是一個浮點數或浮點數列表,長度與影像中的通道數相同。可以透過preprocess
方法中的image_mean
引數覆蓋。 - image_std (
float
或list[float]
, 可選, 預設為IMAGENET_STANDARD_STD
) — 如果歸一化影像,則使用的標準差。這是一個浮點數或浮點數列表,長度與影像中的通道數相同。可以透過preprocess
方法中的image_std
引數覆蓋。 - do_center_crop (
bool
, 可選, 預設為True
) — 是否中心裁剪影像。可以透過preprocess
方法中的do_center_crop
引數覆蓋。 - crop_size (
dict[str, int]
, 可選) — 應用中心裁剪時所需的輸出大小。僅當do_center_crop
設定為True
時有效。可以透過preprocess
方法中的crop_size
引數覆蓋。如果未設定,則預設為size
。 - do_pad (
bool
, 可選, 預設為True
) — 是否將影像填充到批次中影像的(max_height, max_width)
。可以透過preprocess
方法中的do_pad
引數覆蓋。
構建 BridgeTower 影像處理器。
preprocess
< source 源 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None size_divisor: typing.Optional[int] = None resample: Resampling = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None do_center_crop: typing.Optional[bool] = None crop_size: typing.Optional[dict[str, int]] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )
引數
- images (
ImageInput
) — 要預處理的影像。期望畫素值範圍為0到255的單張或批次影像。如果傳入畫素值在0到1之間的影像,請設定do_rescale=False
。 - do_resize (
bool
, 可選, 預設為self.do_resize
) — 是否調整影像大小。 - size (
dict[str, int]
, 可選, 預設為self.size
) — 控制resize
後圖像的大小。影像的最短邊被調整為size["shortest_edge"]
,同時保持寬高比。如果此調整大小後的影像的最長邊大於int(size["shortest_edge"] * (1333 / 800))
,則影像將再次調整大小,使最長邊等於int(size["shortest_edge"] * (1333 / 800))
。 - size_divisor (
int
, 可選, 預設為self.size_divisor
) — 影像被調整為該值的倍數。 - resample (
PILImageResampling
, 可選, 預設為self.resample
) — 如果調整影像大小,則使用的重取樣過濾器。僅當do_resize
設定為True
時有效。 - do_rescale (
bool
, 可選, 預設為self.do_rescale
) — 是否將影像值縮放到 [0 - 1] 之間。 - rescale_factor (
float
, 可選, 預設為self.rescale_factor
) — 如果do_rescale
設定為True
,則用於縮放影像的縮放因子。 - do_normalize (
bool
, 可選, 預設為self.do_normalize
) — 是否歸一化影像。 - image_mean (
float
或list[float]
, 可選, 預設為self.image_mean
) — 如果do_normalize
設定為True
,則用於歸一化影像的影像均值。 - image_std (
float
或list[float]
, 可選, 預設為self.image_std
) — 如果do_normalize
設定為True
,則用於歸一化影像的影像標準差。 - do_pad (
bool
, 可選, 預設為self.do_pad
) — 是否將影像填充到批次中的(max_height, max_width)
。如果為True
,還會建立並返回一個畫素掩碼。 - do_center_crop (
bool
, 可選, 預設為self.do_center_crop
) — 是否中心裁剪影像。如果輸入大小沿任何邊小於crop_size
,則影像將用0填充,然後進行中心裁剪。 - crop_size (
dict[str, int]
, 可選, 預設為self.crop_size
) — 中心裁剪後圖像的大小。如果影像的某個邊小於crop_size
,它將用零填充然後裁剪。 - return_tensors (
str
或TensorType
, 可選) — 要返回的張量型別。可以是以下之一:- 未設定:返回
np.ndarray
列表。 TensorType.TENSORFLOW
或'tf'
:返回tf.Tensor
型別的批處理。TensorType.PYTORCH
或'pt'
:返回torch.Tensor
型別的批處理。TensorType.NUMPY
或'np'
:返回np.ndarray
型別的批處理。TensorType.JAX
或'jax'
:返回jax.numpy.ndarray
型別的批處理。
- 未設定:返回
- data_format (
ChannelDimension
或str
, 可選, 預設為ChannelDimension.FIRST
) — 輸出影像的通道維度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:影像格式為 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:影像格式為 (height, width, num_channels)。- 未設定:使用輸入影像的通道維度格式。
- input_data_format (
ChannelDimension
或str
, 可選) — 輸入影像的通道維度格式。如果未設定,通道維度格式將從輸入影像推斷。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:影像格式為 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:影像格式為 (height, width, num_channels)。"none"
或ChannelDimension.NONE
:影像格式為 (height, width)。
預處理一張或一批影像。
BridgeTowerImageProcessorFast
class transformers.BridgeTowerImageProcessorFast
< source 源 >( **kwargs: typing_extensions.Unpack[transformers.models.bridgetower.image_processing_bridgetower_fast.BridgeTowerFastImageProcessorKwargs] )
構建一個快速 BridgeTower 影像處理器。
preprocess
< source 源 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.bridgetower.image_processing_bridgetower_fast.BridgeTowerFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>
引數
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]
) — 要預處理的影像。期望畫素值範圍為0到255的單張或批次影像。如果傳入畫素值在0到1之間的影像,請設定do_rescale=False
。 - do_resize (
bool
, 可選) — 是否調整影像大小。 - size (
dict[str, int]
, 可選) — 描述模型的最大輸入維度。 - default_to_square (
bool
, 可選) — 當調整大小(如果大小為整數)時,是否預設為正方形影像。 - resample (
Union[PILImageResampling, F.InterpolationMode, NoneType]
) — 如果調整影像大小,則使用的重取樣濾波器。這可以是列舉PILImageResampling
之一。僅當do_resize
設定為True
時才有效。 - do_center_crop (
bool
, optional) — 是否對影像進行中心裁剪。 - crop_size (
dict[str, int]
, optional) — 應用center_crop
後輸出影像的大小。 - do_rescale (
bool
, optional) — 是否對影像進行重新縮放。 - rescale_factor (
Union[int, float, NoneType]
) — 如果do_rescale
設定為True
,則用於重新縮放影像的縮放因子。 - do_normalize (
bool
, optional) — 是否對影像進行歸一化。 - image_mean (
Union[float, list[float], NoneType]
) — 用於歸一化的影像平均值。僅當do_normalize
設定為True
時才有效。 - image_std (
Union[float, list[float], NoneType]
) — 用於歸一化的影像標準差。僅當do_normalize
設定為True
時才有效。 - do_convert_rgb (
bool
, optional) — 是否將影像轉換為RGB。 - return_tensors (
Union[str, ~utils.generic.TensorType, NoneType]
) — 如果設定為 `pt`,則返回堆疊張量,否則返回張量列表。 - data_format (
~image_utils.ChannelDimension
, optional) — 僅支援ChannelDimension.FIRST
。為與慢速處理器相容而新增。 - input_data_format (
Union[str, ~image_utils.ChannelDimension, NoneType]
) — 輸入影像的通道維度格式。如果未設定,則從輸入影像推斷通道維度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:影像為 (num_channels, height, width) 格式。"channels_last"
或ChannelDimension.LAST
:影像為 (height, width, num_channels) 格式。"none"
或ChannelDimension.NONE
:影像為 (height, width) 格式。
- device (
torch.device
, optional) — 處理影像的裝置。如果未設定,則從輸入影像推斷裝置。 - disable_grouping (
bool
, optional) — 是否停用按大小對影像進行分組以單獨處理而不是批處理。如果為 None,則如果影像在 CPU 上,則設定為 True,否則設定為 False。此選擇基於經驗觀察,詳情請見:https://github.com/huggingface/transformers/pull/38157 - size_divisor (
int
, optional, defaults to 32) — 確保高度和寬度都可以被其整除的大小。僅當do_resize
設定為True
時才有效。可以透過preprocess
方法中的size_divisor
引數覆蓋。 - do_pad (
bool
, optional, defaults toTrue
) — 是否將影像填充到批處理影像的(max_height, max_width)
。可以透過preprocess
方法中的do_pad
引數覆蓋。
返回
<class 'transformers.image_processing_base.BatchFeature'>
- data (
dict
) — 由 call 方法返回的列表/陣列/張量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType]
, 可選) — 您可以在此處提供一個`tensor_type`,以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。
BridgeTowerProcessor
class transformers.BridgeTowerProcessor
< source >( image_processor tokenizer )
引數
- image_processor (
BridgeTowerImageProcessor
) — BridgeTowerImageProcessor 的例項。影像處理器是必需輸入。 - tokenizer (
RobertaTokenizerFast
) — [‘RobertaTokenizerFast`] 的例項。分詞器是必需輸入。
構建一個 BridgeTower 處理器,它將 Roberta 分詞器和 BridgeTower 影像處理器封裝到一個處理器中。
BridgeTowerProcessor 提供 BridgeTowerImageProcessor 和 RobertaTokenizerFast 的所有功能。有關更多資訊,請參閱 call() 和 decode()
的文件字串。
__call__
< source >( images text: typing.Union[str, list[str], list[list[str]]] = None audio = None videos = None **kwargs: typing_extensions.Unpack[transformers.models.bridgetower.processing_bridgetower.BridgeTowerProcessorKwargs] )
此方法使用 BridgeTowerImageProcessor.call() 方法準備模型影像,並使用 RobertaTokenizerFast.call() 準備模型文字。
有關更多資訊,請參閱上述兩種方法的文件字串。
BridgeTowerModel
class transformers.BridgeTowerModel
< source >( config )
引數
- config (BridgeTowerModel) — 包含模型所有引數的模型配置類。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。
不帶任何特定頭部的裸 BridgeTower 模型 transformer,輸出 BridgeTowerModelOutput 物件
此模型繼承自 PreTrainedModel。請檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並參考 PyTorch 文件中所有與通用用法和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None image_token_type_idx: typing.Optional[int] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None labels: typing.Optional[torch.LongTensor] = None interpolate_pos_encoding: bool = False ) → transformers.models.bridgetower.modeling_bridgetower.BridgeTowerModelOutput
or tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
, 形狀為(batch_size, sequence_length)
, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
, 形狀為(batch_size, sequence_length)
, 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示 未被遮蓋 的 token,
- 0 表示 被遮蓋 的 token。
- token_type_ids (
torch.LongTensor
, 形狀為(batch_size, sequence_length)
, 可選) — 表示輸入第一部分和第二部分的段 token 索引。索引在[0, 1]
中選擇:- 0 對應於 句子 A token,
- 1 對應於 句子 B token。
- pixel_values (
torch.FloatTensor
, 形狀為(batch_size, num_channels, image_size, image_size)
, 可選) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
, 形狀為(batch_size, height, width)
, 可選) — 用於避免對填充畫素值執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示真實畫素(即 未被遮蓋),
- 0 表示填充畫素(即 被遮蓋)。
- head_mask (
torch.FloatTensor
, 形狀為(num_heads,)
或(num_layers, num_heads)
, 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭部 未被遮蓋,
- 0 表示頭部 被遮蓋。
- inputs_embeds (
torch.FloatTensor
, 形狀為(batch_size, sequence_length, hidden_size)
, 可選) — (可選)不傳遞input_ids
,您可以選擇直接傳遞嵌入表示。如果您希望對如何將input_ids
索引轉換為關聯向量(而不是模型的內部嵌入查詢矩陣)有更多控制,這很有用。 - image_embeds (
torch.FloatTensor
, 形狀為(batch_size, num_patches, hidden_size)
, 可選) — (可選)不傳遞pixel_values
,您可以選擇直接傳遞嵌入表示。如果您希望對如何將pixel_values
轉換為補丁嵌入有更多控制,這很有用。 - image_token_type_idx (
int
, 可選) —- 影像的 token 型別 ID。
- output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 如果設定為True
,隱藏狀態將作為包含文字、影像和跨模態元件隱藏狀態的列表返回。即(hidden_states_text, hidden_states_image, hidden_states_cross_modal)
,其中每個元素是相應模態隱藏狀態的列表。hidden_states_txt/img
是單模態隱藏狀態張量列表,hidden_states_cross_modal
是包含每個橋接層cross_modal_text_hidden_states
和cross_modal_image_hidden_states
的元組列表。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是純元組。 - labels (
torch.LongTensor
, 形狀為(batch_size,)
, 可選) — 目前不支援標籤。 - interpolate_pos_encoding (
bool
, 預設為False
) — 是否對預訓練位置編碼進行插值。
返回
transformers.models.bridgetower.modeling_bridgetower.BridgeTowerModelOutput
或 tuple(torch.FloatTensor)
transformers.models.bridgetower.modeling_bridgetower.BridgeTowerModelOutput
或 torch.FloatTensor
的元組(如果傳遞了 return_dict=False
或當 config.return_dict=False
時),根據配置(BridgeTowerConfig)和輸入包含各種元素。
-
text_features (
torch.FloatTensor
, 形狀為(batch_size, text_sequence_length, hidden_size)
) — 模型最後一層文字輸出處的隱藏狀態序列。 -
image_features (
torch.FloatTensor
, 形狀為(batch_size, image_sequence_length, hidden_size)
) — 模型最後一層影像輸出處的隱藏狀態序列。 -
pooler_output (
torch.FloatTensor
, 形狀為(batch_size, hidden_size x 2)
) — 在透過用於輔助預訓練任務的層進一步處理後,文字和影像序列的第一個 token 的最後一層隱藏狀態的拼接(分類 token)。 -
hidden_states (
tuple[torch.FloatTensor]
, 可選, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(如果模型有嵌入層,則一個用於嵌入輸出,加上一個用於每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple[torch.FloatTensor]
, 可選, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每個層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
BridgeTowerModel 的 forward 方法,重寫了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是直接呼叫此函式,因為前者負責執行預處理和後處理步驟,而後者會默默地忽略它們。
示例
>>> from transformers import BridgeTowerProcessor, BridgeTowerModel
>>> from PIL import Image
>>> import requests
>>> # prepare image and text
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "hello world"
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base")
>>> model = BridgeTowerModel.from_pretrained("BridgeTower/bridgetower-base")
>>> inputs = processor(image, text, return_tensors="pt")
>>> outputs = model(**inputs)
>>> outputs.keys()
odict_keys(['text_features', 'image_features', 'pooler_output'])
BridgeTowerForContrastiveLearning
class transformers.BridgeTowerForContrastiveLearning
< source >( config )
引數
- config (BridgeTowerForContrastiveLearning) — 包含模型所有引數的模型配置類。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。
BridgeTower 模型頂部帶有一個影像-文字對比頭部,計算影像-文字對比損失。
此模型繼承自 PreTrainedModel。請檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並參考 PyTorch 文件中所有與通用用法和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = True return_dict: typing.Optional[bool] = None return_loss: typing.Optional[bool] = None ) → transformers.models.bridgetower.modeling_bridgetower.BridgeTowerContrastiveOutput
或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
, 形狀為(batch_size, sequence_length)
, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下,填充將被忽略。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
, 形狀為(batch_size, sequence_length)
, 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示 未被遮蓋 的 token,
- 0 表示 被遮蓋 的 token。
- token_type_ids (
torch.LongTensor
, 形狀為(batch_size, sequence_length)
, 可選) — 表示輸入第一部分和第二部分的段 token 索引。索引在[0, 1]
中選擇:- 0 對應於 句子 A token,
- 1 對應於 句子 B token。
- pixel_values (
torch.FloatTensor
, 形狀為(batch_size, num_channels, image_size, image_size)
, 可選) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_mask (
torch.LongTensor
, 形狀為(batch_size, height, width)
, 可選) — 用於避免對填充畫素值執行注意力的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示真實畫素(即 未被遮蓋),
- 0 表示填充畫素(即 被遮蓋)。
- head_mask (
torch.FloatTensor
, 形狀為(num_heads,)
或(num_layers, num_heads)
, 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭部 未被遮蓋,
- 0 表示頭部 被遮蓋。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
,可選) — 可選引數,可以直接傳入嵌入表示,而不是傳入input_ids
。當您想要比模型內部嵌入查詢矩陣更好地控制如何將input_ids
索引轉換為關聯向量時,此引數非常有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
,可選) — 可選引數,可以直接傳入嵌入表示,而不是傳入pixel_values
。當您想要更好地控制如何將pixel_values
轉換為補丁嵌入時,此引數非常有用。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量下的attentions
。 - output_hidden_states (
bool
, 可選, 預設為True
) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通元組。 - return_loss (
bool
, 可選) — 是否返回對比損失。
返回
transformers.models.bridgetower.modeling_bridgetower.BridgeTowerContrastiveOutput
或 tuple(torch.FloatTensor)
一個 transformers.models.bridgetower.modeling_bridgetower.BridgeTowerContrastiveOutput
或一個 torch.FloatTensor
元組(如果傳入 return_dict=False
或當 config.return_dict=False
時),包含根據配置(BridgeTowerConfig)和輸入而異的各種元素。
-
loss (
torch.FloatTensor
,形狀為(1,)
,可選,當return_loss
為True
時返回) — 影像-文字對比損失。 -
logits (形狀為
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。 -
text_embeds (
torch.FloatTensor)
,可選,當模型使用with_projection=True
初始化時返回) — 透過對 pooler_output 應用投影層獲得的文字嵌入。 -
image_embeds (
torch.FloatTensor)
,可選,當模型使用with_projection=True
初始化時返回) — 透過對 pooler_output 應用投影層獲得的影像嵌入。 -
cross_embeds (
torch.FloatTensor)
,可選,當模型使用with_projection=True
初始化時返回) — 透過對 pooler_output 應用投影層獲得的文字-影像跨模態嵌入。 -
hidden_states (
tuple[torch.FloatTensor]
, 可選, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(如果模型有嵌入層,則一個用於嵌入輸出,加上一個用於每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, 可選, 當output_attentions=True
或config.output_attentions=True
傳入時返回) —torch.FloatTensor
元組 (每層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。
BridgeTowerForContrastiveLearning 的 forward 方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是直接呼叫此函式,因為前者負責執行預處理和後處理步驟,而後者會默默地忽略它們。
示例
>>> from transformers import BridgeTowerProcessor, BridgeTowerForContrastiveLearning
>>> import requests
>>> from PIL import Image
>>> import torch
>>> image_urls = [
... "https://farm4.staticflickr.com/3395/3428278415_81c3e27f15_z.jpg",
... "http://images.cocodataset.org/val2017/000000039769.jpg",
... ]
>>> texts = ["two dogs in a car", "two cats sleeping on a couch"]
>>> images = [Image.open(requests.get(url, stream=True).raw) for url in image_urls]
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")
>>> model = BridgeTowerForContrastiveLearning.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")
>>> inputs = processor(images, texts, padding=True, return_tensors="pt")
>>> loss = model(**inputs, return_loss=True).loss
>>> inputs = processor(images, texts[::-1], padding=True, return_tensors="pt")
>>> loss_swapped = model(**inputs, return_loss=True).loss
>>> print("Loss", round(loss.item(), 4))
Loss 0.0019
>>> print("Loss with swapped images", round(loss_swapped.item(), 4))
Loss with swapped images 2.126
BridgeTowerForMaskedLM
class transformers.BridgeTowerForMaskedLM
< 來源 >( config )
引數
- config (BridgeTowerForMaskedLM) — 模型配置類,包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
BridgeTower 模型,在預訓練期間在頂部添加了一個語言建模頭。
此模型繼承自 PreTrainedModel。請檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並參考 PyTorch 文件中所有與通用用法和行為相關的事項。
forward
< 來源 >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None labels: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參見 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
,可選) — 掩碼,用於避免對填充標記索引執行注意力操作。掩碼值選擇在[0, 1]
之間:- 1 表示未掩碼的標記,
- 0 表示已掩碼的標記。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 分段標記索引,用於指示輸入的第一個和第二個部分。索引選擇在[0, 1]
之間:- 0 對應於句子 A 標記,
- 1 對應於句子 B 標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
,可選) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲得。有關詳細資訊,請參見{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
進行影像處理)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
,可選) — 掩碼,用於避免對填充畫素值執行注意力操作。掩碼值選擇在[0, 1]
之間:- 1 表示真實畫素(即未掩碼),
- 0 表示填充畫素(即已掩碼)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
,可選) — 掩碼,用於使自注意力模組的選定頭失效。掩碼值選擇在[0, 1]
之間:- 1 表示頭部未掩碼,
- 0 表示頭部已掩碼。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
,可選) — 可選引數,可以直接傳入嵌入表示,而不是傳入input_ids
。當您想要比模型內部嵌入查詢矩陣更好地控制如何將input_ids
索引轉換為關聯向量時,此引數非常有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
,可選) — 可選引數,可以直接傳入嵌入表示,而不是傳入pixel_values
。當您想要更好地控制如何將pixel_values
轉換為補丁嵌入時,此引數非常有用。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通元組。 - labels (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 用於計算掩碼語言模型損失的標籤。索引應在[-100, 0, ..., config.vocab_size]
之間(參見input_ids
文件字串)。索引設定為-100
的標記將被忽略(掩碼),損失僅針對標籤在[0, ..., config.vocab_size]
範圍內的標記進行計算。
返回
transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.MaskedLMOutput 或一個 torch.FloatTensor
元組(如果傳入 return_dict=False
或當 config.return_dict=False
時),包含根據配置(BridgeTowerConfig)和輸入而異的各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 掩碼語言建模 (MLM) 損失。 -
logits (形狀為
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可選, 當output_hidden_states=True
或config.output_hidden_states=True
傳入時返回) —torch.FloatTensor
元組(一個用於嵌入層輸出(如果模型有嵌入層),加上每個層的一個輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, 可選, 當output_attentions=True
或config.output_attentions=True
傳入時返回) —torch.FloatTensor
元組 (每層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
BridgeTowerForMaskedLM 的 forward 方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是直接呼叫此函式,因為前者負責執行預處理和後處理步驟,而後者會默默地忽略它們。
示例
>>> from transformers import BridgeTowerProcessor, BridgeTowerForMaskedLM
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000360943.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
>>> text = "a <mask> looking out of the window"
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForMaskedLM.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")
>>> # forward pass
>>> outputs = model(**encoding)
>>> results = processor.decode(outputs.logits.argmax(dim=-1).squeeze(0).tolist())
>>> print(results)
.a cat looking out of the window.
BridgeTowerForImageAndTextRetrieval
class transformers.BridgeTowerForImageAndTextRetrieval
< 來源 >( config )
引數
- config (BridgeTowerForImageAndTextRetrieval) — 模型配置類,包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
BridgeTower 模型 transformer,頂部帶有一個分類器頭([CLS] token 最終隱藏狀態頂部的線性層),用於影像到文字的匹配。
此模型繼承自 PreTrainedModel。請檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並參考 PyTorch 文件中所有與通用用法和行為相關的事項。
forward
< 來源 >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None image_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None labels: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參見 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
,可選) — 掩碼,用於避免對填充標記索引執行注意力操作。掩碼值選擇在[0, 1]
之間:- 1 表示未掩碼的標記,
- 0 表示已掩碼的標記。
- token_type_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 分段標記索引,用於指示輸入的第一個和第二個部分。索引選擇在[0, 1]
之間:- 0 對應於句子 A 標記,
- 1 對應於句子 B 標記。
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
,可選) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲得。有關詳細資訊,請參見{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
進行影像處理)。 - pixel_mask (
torch.LongTensor
,形狀為(batch_size, height, width)
,可選) — 掩碼,用於避免對填充畫素值執行注意力操作。掩碼值選擇在[0, 1]
之間:- 1 表示真實畫素(即未掩碼),
- 0 表示填充畫素(即已掩碼)。
- head_mask (
torch.FloatTensor
,形狀為(num_heads,)
或(num_layers, num_heads)
,可選) — 掩碼,用於使自注意力模組的選定頭失效。掩碼值選擇在[0, 1]
之間:- 1 表示頭部未掩碼,
- 0 表示頭部已掩碼。
- inputs_embeds (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
,可選) — 可選引數,可以直接傳入嵌入表示,而不是傳入input_ids
。當您想要比模型內部嵌入查詢矩陣更好地控制如何將input_ids
索引轉換為關聯向量時,此引數非常有用。 - image_embeds (
torch.FloatTensor
,形狀為(batch_size, num_patches, hidden_size)
,可選) — 可選引數,可以直接傳入嵌入表示,而不是傳入pixel_values
。當您想要更好地控制如何將pixel_values
轉換為補丁嵌入時,此引數非常有用。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通元組。 - labels (
torch.LongTensor
,形狀為(batch_size, 1)
,可選) — 用於計算影像-文字匹配損失的標籤。0 表示配對不匹配,1 表示匹配。標籤為 0 的配對將被跳過計算。
返回
transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor
元組(如果傳入 return_dict=False
或當 config.return_dict=False
時),包含根據配置(BridgeTowerConfig)和輸入而異的各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。 -
logits (形狀為
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分類(如果 config.num_labels==1,則為迴歸)分數(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可選, 當output_hidden_states=True
或config.output_hidden_states=True
傳入時返回) —torch.FloatTensor
元組(一個用於嵌入層輸出(如果模型有嵌入層),加上每個層的一個輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, 可選, 當output_attentions=True
或config.output_attentions=True
傳入時返回) —torch.FloatTensor
元組 (每層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
BridgeTowerForImageAndTextRetrieval 的 forward 方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是直接呼叫此函式,因為前者負責執行預處理和後處理步驟,而後者會默默地忽略它們。
示例
>>> from transformers import BridgeTowerProcessor, BridgeTowerForImageAndTextRetrieval
>>> import requests
>>> from PIL import Image
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]
>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForImageAndTextRetrieval.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> # forward pass
>>> scores = dict()
>>> for text in texts:
... # prepare inputs
... encoding = processor(image, text, return_tensors="pt")
... outputs = model(**encoding)
... scores[text] = outputs.logits[0, 1].item()