FLAVA

概述

FLAVA 模型由 Amanpreet Singh、Ronghang Hu、Vedanuj Goswami、Guillaume Couairon、Wojciech Galuba、Marcus Rohrbach 和 Douwe Kiela 在 FLAVA: A Foundational Language And Vision Alignment Model 中提出，並被 CVPR 2022 接收。

該論文旨在建立一個單一的統一基礎模型，該模型可以跨視覺、語言以及視覺和語言多模態任務工作。

論文摘要如下：

最先進的視覺和視覺-語言模型依賴於大規模的視覺-語言預訓練，以在各種下游任務中獲得良好的效能。通常，此類模型通常是跨模態（對比）或多模態（早期融合），但不是兩者兼有；並且它們通常只針對特定的模態或任務。一個有前途的方向是使用一個單一的整體通用模型作為“基礎”，一次性針對所有模態——一個真正的視覺和語言基礎模型應該擅長視覺任務、語言任務以及跨模態和多模態視覺和語言任務。我們引入 FLAVA 作為這樣一個模型，並在涵蓋這些目標模態的 35 個任務中展示了令人印象深刻的效能。

該模型由 aps 貢獻。原始程式碼可以在此處找到。

FlavaConfig

class transformers.FlavaConfig

< 源 >

( image_config: typing.Optional[dict[str, typing.Any]] = None text_config: typing.Optional[dict[str, typing.Any]] = None multimodal_config: typing.Optional[dict[str, typing.Any]] = None image_codebook_config: typing.Optional[dict[str, typing.Any]] = None hidden_size: int = 768 layer_norm_eps: float = 1e-12 projection_dim: int = 768 init_codebook: bool = True logit_scale_init_value: float = 2.6592 initializer_range: float = 0.02 ce_ignore_index: int = -100 mim_weight: float = 1.0 mlm_weight: float = 1.0 global_contrastive_weight: float = 1.0 itm_weight: float = 1.0 mmm_image_weight: float = 1.0 mmm_text_weight: float = 1.0 global_backprop_contrastive: bool = True skip_unmasked_multimodal_encoder: bool = True return_loss: bool = True **kwargs )

引數

text_config (dict, 可選) — 用於初始化 FlavaTextConfig 的配置選項字典。
image_config (dict, 可選) — 用於初始化 FlavaImageConfig 的配置選項字典。
multimodal_config (dict, 可選) — 用於初始化 FlavaMultimodalConfig 的配置選項字典。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層維度。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon。
projection_dim (int, 可選, 預設為 512) — 文字和影像投影層的維度。
logit_scale_init_value (float, 可選, 預設為 2.6592) — logit_scale 引數的初始值。預設值與原始 FLAVA/CLIP 實現相同。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
ce_ignore_index (int, 可選, 預設為 -100) — 要忽略的交叉熵索引。
mim_weight (float, 可選, 預設為 1.0) — 分配給 MIM（蒙版影像建模）單模態損失的權重
mlm_weight (float, 可選, 預設為 1.0) — 分配給 MLM（蒙版語言建模）單模態損失的權重
global_contrastive_weight (float, 可選, 預設為 1.0) — 分配給全域性對比交叉對齊損失的權重。
itm_weight (float, 可選, 預設為 1.0) — 分配給影像-文字匹配多模態損失的權重。
mmm_image_weight (float, 可選, 預設為 1.0) — 分配給 MMM 損失的影像部分的權重。
mmm_text_weight (float, 可選, 預設為 1.0) — 分配給 MMM 損失的文字部分的權重。
global_backprop_contrastive (bool, 可選, 預設為 True) — 是否在對比損失中透過所有工作器進行全域性反向傳播。
skip_unmasked_multimodal_encoder (bool, 可選, 預設為 True) — 是否跳過執行未掩碼的多模態編碼器，其輸出未被 FLAVA 損失使用。
return_loss (bool, 可選, 預設為 True) — 是否返回損失。
kwargs (可選) — 關鍵字引數字典。

FlavaConfig 是儲存 FlavaModel 配置的配置類。它用於根據指定引數例項化 FLAVA 模型，定義文字模型、影像模型、影像碼本和多模態模型配置。使用預設值例項化配置將生成與 FLAVA facebook/flava-full 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import FlavaConfig, FlavaModel, FlavaForPreTraining

>>> # Initializing a FlavaConfig with style configuration
>>> configuration = FlavaConfig()

>>> # Initializing a FlavaModel and FlavaForPreTraining model (with random weights) from the style configuration
>>> model = FlavaModel(configuration)
>>> model_pre = FlavaForPreTraining(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config
>>> configuration_pre = model_pre.config

from_configs

< 源 >

( image_config: FlavaImageConfig text_config: FlavaTextConfig multimodal_config: FlavaMultimodalConfig image_codebook_config: FlavaImageCodebookConfig **kwargs ) → FlavaConfig

FlavaConfig

一個配置物件的例項

從 flava 文字模型配置、flava 影像模型配置、flava 多模態模型和 flava 碼本模型配置例項化 FlavaConfig（或派生類）。

FlavaTextConfig

class transformers.FlavaTextConfig

< 源 >

( vocab_size: int = 30522 type_vocab_size: int = 2 max_position_embeddings: int = 512 position_embedding_type: str = 'absolute' hidden_size: int = 768 num_hidden_layers: int = 12 num_attention_heads: int = 12 intermediate_size: int = 3072 hidden_act: str = 'gelu' hidden_dropout_prob: float = 0.0 attention_probs_dropout_prob: float = 0.0 initializer_range: float = 0.02 layer_norm_eps: float = 1e-12 pad_token_id: int = 0 qkv_bias: bool = True **kwargs )

引數

vocab_size (int, 可選, 預設為 30522) — BERT 模型的詞彙表大小。定義了呼叫 FlavaTextModel 時可以透過 inputs_ids 表示的不同 token 的數量。
type_vocab_size (int, 可選, 預設為 2) — 呼叫 FlavaTextModel 時傳遞的 token_type_ids 的詞彙表大小。請注意，即使文字編碼器允許 token_type_ids 的值為 2，對於僅文字的預訓練和微調，僅使用 1，類似於 RoBERTa。
max_position_embeddings (int, 可選, 預設為 512) — 該模型可能使用的最大序列長度。通常設定為較大值以防萬一（例如，512、1024 或 2048）。對於 VL，傳遞給模型的 max_length 為 77。
position_embedding_type (str, 可選, 預設為 "absolute") — 位置嵌入的型別。選擇 "absolute"、"relative_key"、"relative_key_query" 之一。對於位置嵌入，使用 "absolute"。有關 "relative_key" 的更多資訊，請參閱 Self-Attention with Relative Position Representations (Shaw et al.)。有關 "relative_key_query" 的更多資訊，請參閱 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的方法 4。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.1) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.1) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon。
image_size (int, 可選, 預設為 224) — 每張影像的大小（解析度）。
patch_size (int, 可選, 預設為 16) — 每個 patch 的大小（解析度）。
num_channels (int, 可選, 預設為 3) — 輸入通道的數量。
qkv_bias (bool, 可選, 預設為 True) — 是否在查詢、鍵和值中新增偏置。

這是用於儲存 FlavaTextModel 配置的配置類。它用於根據指定引數例項化 FLAVA 模型，定義模型架構。

使用預設值例項化配置將生成與 FLAVA facebook/flava-full 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import FlavaTextConfig, FlavaTextModel

>>> # Initializing a FlavaTextModel with  style configuration
>>> configuration = FlavaTextConfig()

>>> # Initializing a FlavaTextModel model (with random weights) from the style configuration
>>> model = FlavaTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

FLAVA

概述

FlavaConfig

class transformers.FlavaConfig

from_configs

FlavaTextConfig

class transformers.FlavaTextConfig

FlavaImageConfig

class transformers.FlavaImageConfig

FlavaMultimodalConfig

class transformers.FlavaMultimodalConfig

FlavaImageCodebookConfig

class transformers.FlavaImageCodebookConfig

FlavaProcessor

class transformers.FlavaProcessor

batch_decode

decode

FlavaFeatureExtractor

class transformers.FlavaFeatureExtractor

FlavaImageProcessor

class transformers.FlavaImageProcessor

預處理

FlavaImageProcessorFast

class transformers.FlavaImageProcessorFast

預處理

FlavaForPreTraining

class transformers.FlavaForPreTraining

前向傳播

FlavaModel

class transformers.FlavaModel

前向傳播

get_text_features

get_image_features

FlavaImageCodebook

class transformers.FlavaImageCodebook

前向傳播

get_codebook_indices

get_codebook_probs

FlavaTextModel

class transformers.FlavaTextModel

前向傳播

FlavaImageModel

class transformers.FlavaImageModel

前向傳播

FlavaMultimodalModel

class transformers.FlavaMultimodalModel

前向傳播