Transformers 文件

BLIP

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

BLIP

BLIP (Bootstrapped Language-Image Pretraining) 是一個視覺語言預訓練 (VLP) 框架，專為理解和生成任務而設計。現有的大多數預訓練模型在這兩方面都表現平平。它使用一個字幕生成器生成字幕，並使用一個過濾器去除嘈雜的字幕。這提高了訓練資料的質量，並更有效地利用了雜亂的網路資料。

你可以在 BLIP 集合中找到所有原始的 BLIP 檢查點。

此模型由 ybelkada 貢獻。

點選右側邊欄中的 BLIP 模型，瞭解更多如何將 BLIP 應用於不同視覺語言任務的示例。

以下示例演示瞭如何使用 Pipeline 或 AutoModel 類進行視覺問答。

流水線

自動模型

資源

請參閱此筆記本，瞭解如何在自定義資料集上微調 BLIP 進行影像字幕生成。

BlipConfig

class transformers.BlipConfig

< 來源 >

( text_config = None vision_config = None projection_dim = 512 logit_scale_init_value = 2.6592 image_text_hidden_size = 256 label_smoothing = 0.0 **kwargs )

引數

text_config (dict, 可選) — 用於初始化 BlipTextConfig 的配置選項字典。
vision_config (dict, 可選) — 用於初始化 BlipVisionConfig 的配置選項字典。
projection_dim (int, 可選, 預設為 512) — 文字和視覺投影層的維度。
logit_scale_init_value (float, 可選, 預設為 2.6592) — logit_scale 引數的初始值。預設值按照原始 BLIP 實現使用。
image_text_hidden_size (int, 可選, 預設為 256) — 影像-文字融合層隱藏狀態的維度。
label_smoothing (float, 可選, 預設為 0.0) — [0.0, 1.0] 範圍內的浮點數。指定計算損失時的平滑量，其中 0.0 表示不平滑。目標將成為原始真實值和均勻分佈的混合，如 重新思考計算機視覺的 Inception 架構 <https://huggingface.co/papers/1512.00567>__ 中所述。預設值：:math:0.0。
kwargs (可選) — 關鍵字引數字典。

BlipConfig 是用於儲存 BlipModel 配置的配置類。它用於根據指定的引數例項化 BLIP 模型，定義文字模型和視覺模型配置。使用預設值例項化配置將生成與 BLIP-base Salesforce/blip-vqa-base 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import BlipConfig, BlipModel

>>> # Initializing a BlipConfig with Salesforce/blip-vqa-base style configuration
>>> configuration = BlipConfig()

>>> # Initializing a BlipPModel (with random weights) from the Salesforce/blip-vqa-base style configuration
>>> model = BlipModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

>>> # We can also initialize a BlipConfig from a BlipTextConfig and a BlipVisionConfig

>>> # Initializing a BLIPText and BLIPVision configuration
>>> config_text = BlipTextConfig()
>>> config_vision = BlipVisionConfig()

>>> config = BlipConfig.from_text_vision_configs(config_text, config_vision)

from_text_vision_configs

< 來源 >

( text_config: BlipTextConfig vision_config: BlipVisionConfig **kwargs ) → BlipConfig

BlipConfig

一個配置物件的例項

從 blip 文字模型配置和 blip 視覺模型配置例項化 BlipConfig（或派生類）。

BlipTextConfig

class transformers.BlipTextConfig

< 來源 >

( vocab_size = 30524 hidden_size = 768 encoder_hidden_size = 768 intermediate_size = 3072 projection_dim = 768 num_hidden_layers = 12 num_attention_heads = 8 max_position_embeddings = 512 hidden_act = 'gelu' layer_norm_eps = 1e-12 hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 bos_token_id = 30522 eos_token_id = 2 pad_token_id = 0 sep_token_id = 102 is_decoder = True use_cache = True label_smoothing = 0.0 **kwargs )

引數

vocab_size (int, 可選, 預設為 30524) — Blip 文字模型的詞彙表大小。定義了呼叫 BlipModel 時傳入的 inputs_ids 可以表示的不同標記的數量。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
encoder_hidden_size (int, 可選, 預設為 768) — 視覺模型中編碼器層的維度。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中隱藏層的數量。
num_attention_heads (int, 可選, 預設為 8) — Transformer 編碼器中每個注意力層的注意力頭數量。
max_position_embeddings (int, 可選, 預設為 512) — 該模型可能使用的最大序列長度。通常設定為一個較大的值以防萬一（例如，512、1024 或 2048）。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"selu" 和 "gelu_new" "gelu"。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon。
hidden_dropout_prob (float, 可選, 預設為 0.0) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態分佈初始化器的標準差。
bos_token_id (int, 可選, 預設為 30522) — 序列開始 標記的 ID。
eos_token_id (int, 可選, 預設為 2) — 序列結束 標記的 ID。
pad_token_id (int, 可選, 預設為 0) — 填充 標記的 ID。
sep_token_id (int, 可選, 預設為 102) — 分隔符 標記的 ID。
is_decoder (bool, 可選, 預設為 True) — 模型是否用作解碼器。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個 key/values 注意力（並非所有模型都使用）。
label_smoothing (float, 可選) — [0.0, 1.0] 範圍內的浮點數。指定計算損失時的平滑量，其中 0.0 表示不平滑。目標將成為原始真實值和均勻分佈的混合，如 重新思考計算機視覺的 Inception 架構 <https://huggingface.co/papers/1512.00567>__ 中所述。預設值：:math:0.0。

這是用於儲存 BlipTextModel 配置的配置類。它用於根據指定的引數例項化 BLIP 文字模型，定義模型架構。使用預設值例項化配置將生成與基本架構使用的 BlipText 類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import BlipTextConfig, BlipTextModel

>>> # Initializing a BlipTextConfig with Salesforce/blip-vqa-base style configuration
>>> configuration = BlipTextConfig()

>>> # Initializing a BlipTextModel (with random weights) from the Salesforce/blip-vqa-base style configuration
>>> model = BlipTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

BlipVisionConfig

class transformers.BlipVisionConfig

< 來源 >

( hidden_size = 768 intermediate_size = 3072 projection_dim = 512 num_hidden_layers = 12 num_attention_heads = 12 image_size = 384 patch_size = 16 hidden_act = 'gelu' layer_norm_eps = 1e-05 attention_dropout = 0.0 initializer_range = 1e-10 **kwargs )

引數

hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中隱藏層的數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
image_size (int, 可選, 預設為 384) — 每張圖片的大小（解析度）。
patch_size (int, 可選, 預設為 16) — 每個補丁的大小（解析度）。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，支援 "gelu", "relu", "selu" 和 "gelu_new" "gelu"。
layer_norm_eps (float, 可選, 預設為 1e-5) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 1e-10) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。

這是用於儲存 BlipVisionModel 配置的配置類。它用於根據指定引數例項化 BLIP 視覺模型，定義模型架構。例項化預設配置將生成與 Blip-base Salesforce/blip-vqa-base 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import BlipVisionConfig, BlipVisionModel

>>> # Initializing a BlipVisionConfig with Salesforce/blip-vqa-base style configuration
>>> configuration = BlipVisionConfig()

>>> # Initializing a BlipVisionModel (with random weights) from the Salesforce/blip-vqa-base style configuration
>>> model = BlipVisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

BLIP

資源

BlipConfig

class transformers.BlipConfig

from_text_vision_configs

BlipTextConfig

class transformers.BlipTextConfig

BlipVisionConfig

class transformers.BlipVisionConfig

BlipProcessor

class transformers.BlipProcessor

batch_decode

decode

BlipImageProcessor

class transformers.BlipImageProcessor

preprocess

BlipImageProcessorFast

class transformers.BlipImageProcessorFast

preprocess

BlipModel

class transformers.BlipModel

forward

get_text_features

get_image_features

BlipTextModel

class transformers.BlipTextModel

forward

BlipTextLMHeadModel

class transformers.BlipTextLMHeadModel

forward

BlipVisionModel

class transformers.BlipVisionModel

forward

BlipForConditionalGeneration

class transformers.BlipForConditionalGeneration

forward

BlipForImageTextRetrieval

class transformers.BlipForImageTextRetrieval

forward

BlipForQuestionAnswering

class transformers.BlipForQuestionAnswering

forward

TFBlipModel

class transformers.TFBlipModel

呼叫

get_text_features

get_image_features

TFBlipTextModel

class transformers.TFBlipTextModel

呼叫

TFBlipTextLMHeadModel

class transformers.TFBlipTextLMHeadModel

呼叫

TFBlipVisionModel

class transformers.TFBlipVisionModel

呼叫

TFBlipForConditionalGeneration

class transformers.TFBlipForConditionalGeneration

呼叫

TFBlipForImageTextRetrieval

class transformers.TFBlipForImageTextRetrieval

呼叫

TFBlipForQuestionAnswering

class transformers.TFBlipForQuestionAnswering

呼叫