Idefics3

概述

Idefics3 模型由 Hugo Laurençon、Andrés Marafioti、Victor Sanh 和 Léo Tronchon 在論文《構建並更好地理解視覺-語言模型：見解與未來方向》中提出。

Idefics3 是 Idefics2 模型的改編版，主要有三個不同之處：

文字模型使用 Llama3。
對影像使用更新的處理邏輯。
移除了 perceiver。

論文摘要如下：

視覺-語言模型（VLM）領域正在迅速發展，該領域模型以影像和文字為輸入，輸出文字。在開發流程的幾個關鍵方面，包括資料、架構和訓練方法，尚未達成共識。本文可視為構建 VLM 的教程。我們首先全面概述了當前最先進的方法，強調了每種方法的優缺點，解決了該領域的主要挑戰，併為尚未充分探索的領域提出了有前景的研究方向。然後，我們逐步介紹了構建 Idefics3-8B 的實際步驟，這是一個強大的 VLM，其效能顯著優於其前身 Idefics2-8B，同時訓練效率高，完全基於開放資料集，並使用了簡單的流程。這些步驟包括建立 Docmatix，這是一個用於提高文件理解能力的資料集，其規模比以往可用的資料集大 240 倍。我們釋出了該模型以及用於其訓練的資料集。

使用技巧

輸入影像要麼透過上取樣（如果啟用了調整大小）處理，要麼以其原始解析度處理。調整大小的行為取決於兩個引數：`do_resize` 和 `size`。

如果 do_resize 設定為 True，模型預設將影像的最長邊調整為 4*364 畫素。預設的調整大小行為可以透過向 size 引數傳遞一個字典來自定義。例如，`{“longest_edge”: 4 * 364}` 是預設值，但如果需要，您可以將其更改為不同的值。

以下是如何控制調整大小並設定自定義尺寸的方法：

image_processor = Idefics3ImageProcessor(do_resize=True, size={"longest_edge": 2 * 364}, max_image_size=364)

此外，`max_image_size` 引數控制影像被分解成的每個方形圖塊的大小，預設設定為 364，但可以根據需要進行調整。調整大小後（如果適用），影像處理器會根據 `max_image_size` 引數將影像分解為方形圖塊。

該模型由 amyeroberts 和 andimarafioti 貢獻。

Idefics3Config

class transformers.Idefics3Config

< 來源 >

( use_cache = True image_token_id = 128257 tie_word_embeddings = False vision_config = None text_config = None scale_factor = 2 pad_token_id = 128002 **kwargs )

引數

use_cache (bool, 可選, 預設為 True) — 模型是否應快取注意力機制的鍵/值對。僅當 `config.is_decoder=True` 時相關。
image_token_id (int, 可選, 預設為 128257) — “image” 標記的 ID。
tie_word_embeddings (bool, 可選, 預設為 False) — 是否將詞嵌入與標記嵌入繫結。
vision_config (IdeficsVisionConfig 或 dict, 可選, 預設為 IdeficsVisionConfig) — 視覺塔的自定義視覺配置或字典。
text_config (PretrainedConfig 或 dict, 可選, 預設為 LlamaConfig) — 文字模型的自定義文字配置或字典。
scale_factor (int, 可選, 預設為 2) — 影像編碼器的縮放因子。
pad_token_id (int, 可選, 預設為 128002) — 填充標記的 ID。

這是用於儲存 Idefics3Model 配置的配置類。它用於根據指定的引數例項化 Idefics3 模型，定義模型架構。使用預設值例項化配置將產生與 Idefics3 HuggingFaceM4/Idefics3-8B-Llama3 架構模型類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import Idefics3Model, Idefics3Config
>>> # Initializing configuration
>>> configuration = Idefics3Config()
>>> # Initializing a model from the configuration
>>> model = Idefics3Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

Idefics3VisionConfig

class transformers.Idefics3VisionConfig

< 來源 >

( hidden_size = 1152 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 16 num_channels = 3 image_size = 224 patch_size = 32 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 initializer_range = 0.02 **kwargs )

引數

hidden_size (int, 可選, 預設為 1152) — 編碼器層和池化層的維度。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 16) — Transformer 編碼器中每個注意力層的注意力頭數量。
num_channels (int, 可選, 預設為 3) — 輸入影像中的通道數。
image_size (int, 可選, 預設為 224) — 每張影像的大小（解析度）。
patch_size (int, 可選, 預設為 32) — 每個圖塊的大小（解析度）。
hidden_act (str 或 function, 可選, 預設為 "gelu_pytorch_tanh") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，支援 `"gelu"`、`"relu"`、`"selu"`、`"gelu_new"` 和 `"quick_gelu"`。
layer_norm_eps (float, 可選, 預設為 1e-06) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。

這是用於儲存 Idefics3VisionModel 配置的配置類。它用於根據指定的引數例項化 Idefics3 視覺編碼器，定義模型架構。使用預設值例項化配置將產生與 Idefics3 模型 HuggingFaceM4/Idefics3-8B-Llama3 中使用的 SigLIP checkpoint google/siglip-base-patch16-224 類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers.models.idefics3.modeling_idefics3 import Idefics3VisionTransformer
>>> from transformers.models.idefics3.configuration_idefics3 import Idefics3VisionConfig

>>> # Initializing a Idefics3VisionConfig with google/siglip-base-patch16-224 style configuration
>>> configuration = Idefics3VisionConfig()

>>> # Initializing a Idefics3VisionTransformer (with random weights) from the google/siglip-base-patch16-224 style configuration
>>> model = Idefics3VisionTransformer(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Idefics3VisionTransformer

class transformers.Idefics3VisionTransformer

< 來源 >

( config: Idefics3VisionConfig )

引數

config (Idefics3VisionConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Idefics3 Vision Transformer 模型輸出原始影像嵌入。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

Idefics3Model

class transformers.Idefics3Model

< 來源 >

( config: Idefics3Config )

引數

config (Idefics3Config) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Idefics3 模型由 SIGLIP 視覺編碼器和 Llama3 語言解碼器組成。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.BoolTensor] = None image_hidden_states: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None return_dict: typing.Optional[bool] = None **kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] ) → `transformers.models.idefics3.modeling_idefics3.Idefics3BaseModelOutputWithPast` 或 `tuple(torch.FloatTensor)`

引數

input_ids (形狀為 `(batch_size, sequence_length)` 的 `torch.LongTensor`, 可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。

什麼是輸入 ID？
attention_mask (形狀為 `(batch_size, sequence_length)` 的 `torch.Tensor`, 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值在 `[0, 1]` 中選擇：
- 1 表示**未被遮蔽**的標記，
- 0 表示**被遮蔽**的標記。
什麼是注意力掩碼？
position_ids (形狀為 `(batch_size, sequence_length)` 的 `torch.LongTensor`, 可選) — 位置嵌入中每個輸入序列標記的位置索引。在 `[0, config.n_positions - 1]` 範圍內選擇。

什麼是位置 ID？
past_key_values (list[torch.FloatTensor], 可選) — 預先計算的隱藏狀態（自注意塊和交叉注意塊中的鍵和值），可用於加速順序解碼。這通常包括在解碼的前一個階段由模型返回的 `past_key_values`，當 `use_cache=True` 或 `config.use_cache=True` 時。

允許兩種格式：
- `Cache` 例項，請參閱我們的 kv 快取指南；
- 長度為 `config.n_layers` 的 `tuple(torch.FloatTensor)` 元組，每個元組包含 2 個形狀為 `(batch_size, num_heads, sequence_length, embed_size_per_head)` 的張量。這也稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 `past_key_values`，將返回舊版快取格式。

如果使用 `past_key_values`，使用者可以選擇只輸入最後一個 `input_ids`（那些沒有為其提供過去鍵值狀態的標記），形狀為 `(batch_size, 1)`，而不是所有形狀為 `(batch_size, sequence_length)` 的 `input_ids`。
inputs_embeds (形狀為 `(batch_size, sequence_length, hidden_size)` 的 `torch.FloatTensor`, 可選) — 可選地，您可以選擇直接傳遞嵌入表示，而不是傳遞 `input_ids`。如果您希望比模型內部的嵌入查詢矩陣更好地控制如何將 `input_ids` 索引轉換為關聯向量，這將非常有用。
pixel_values (形狀為 `(batch_size, num_channels, image_size, image_size)` 的 `torch.FloatTensor`, 可選) — 對應於輸入影像的張量。畫素值可以使用 `{image_processor_class}` 獲取。有關詳細資訊，請參閱 `{image_processor_class}.__call__`（`{processor_class}` 使用 `{image_processor_class}` 處理影像）。
pixel_attention_mask (形狀為 `(batch_size, image_size, image_size)` 的 `torch.Tensor`, 可選) — 避免對填充畫素索引執行注意力的掩碼。
image_hidden_states (形狀為 `(batch_size, num_channels, image_size, image_size)` 的 `torch.FloatTensor`) — 經過模態投影后的影像編碼器的隱藏狀態。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參見返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參見返回張量下的 hidden_states。
cache_position (torch.LongTensor，形狀為 (sequence_length), 可選) — 描述輸入序列中標記位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。
return_dict (bool, 可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.models.idefics3.modeling_idefics3.Idefics3BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.models.idefics3.modeling_idefics3.Idefics3BaseModelOutputWithPast 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（Idefics3Config）和輸入的不同元素。

last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。如果使用 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (tuple(tuple(torch.FloatTensor)), 可選, 當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量，如果 config.is_encoder_decoder=True，則可選地包含另外 2 個形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。包含預先計算的隱藏狀態（自注意力塊中的鍵和值，以及如果 config.is_encoder_decoder=True，則在交叉注意力塊中），可用於加速序列解碼（參見 past_key_values 輸入）。
hidden_states (tuple[torch.FloatTensor], 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層的輸出（如果模型有嵌入層），另一個用於每層的輸出）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor], 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
image_hidden_states (tuple(torch.FloatTensor), 可選) — torch.FloatTensor 元組（一個用於影像嵌入的輸出，形狀為 (batch_size, num_images, sequence_length, hidden_size)）。由視覺編碼器生成的模型的 image_hidden_states。

輸入到模型的影像數量可以是任意的。為了解決這個問題，輸入到模型的 pixel_values 帶有影像填充 -> (batch_size, max_num_images, 3, max_heights, max_widths)，其中 max_num_images 是批次中 batch_size 個樣本中的最大影像數。除了在模型入口處填充 pixel_values 外，不需要對影像進行填充。為了提高效率，我們只通過 vision_model 的前向傳播傳遞真實影像，丟棄填充影像，即 pixel_values 的大小為 (image_batch_size, 3, height, width)，其中當 num_images_per_sample=[1, 3, 1, 2] 且 max_num_images 為 3 時，image_batch_size 將為 7。

Idefics3ForConditionalGeneration

class transformers.Idefics3ForConditionalGeneration

< 源 >

( config )

引數

config (Idefics3ForConditionalGeneration) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Idefics3 模型帶有一個語言模型頭。它由一個 SigLIP 視覺編碼器和一個頂部的語言模型頭組成。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.BoolTensor] = None image_hidden_states: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None return_dict: typing.Optional[bool] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs: typing_extensions.Unpack[transformers.models.idefics3.modeling_idefics3.KwargsForCausalLM] ) → transformers.models.idefics3.modeling_idefics3.Idefics3CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參見 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被遮蓋，
- 0 表示標記被遮蓋。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
past_key_values (list[torch.FloatTensor], 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常是在解碼的前一個階段，當 use_cache=True 或 config.use_cache=True 時由模型返回的 past_key_values。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv cache 指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有為其提供過去鍵值狀態的標記），形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), 可選) — 可選地，您可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果您想比模型的內部嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量，這將非常有用。
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_attention_mask (torch.Tensor，形狀為 (batch_size, image_size, image_size), 可選) — 用於避免對填充畫素索引執行注意力的掩碼。
image_hidden_states (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)) — 經過模態投影后的影像編碼器的隱藏狀態。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 model.image_token_id（其中 model 是您的 Idefics3ForConditionalGeneration 例項）中。索引設定為 model.image_token_id 的標記將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 中的標記計算。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參見返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參見返回張量下的 hidden_states。
cache_position (torch.LongTensor，形狀為 (sequence_length), 可選) — 描述輸入序列中標記位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。
return_dict (bool, 可選) — 是返回一個 ModelOutput 而不是一個普通的元組。
logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果是 int，則計算最後 logits_to_keep 個標記的 logits。如果是 0，則計算所有 input_ids 的 logits（特殊情況）。生成時只需要最後一個標記的 logits，僅為該標記計算它們可以節省記憶體，這對於長序列或大詞彙表大小非常重要。如果是 torch.Tensor，則必須是一維的，對應於序列長度維度中要保留的索引。這在使用打包張量格式（批次和序列長度的單個維度）時很有用。

transformers.models.idefics3.modeling_idefics3.Idefics3CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.models.idefics3.modeling_idefics3.Idefics3CausalLMOutputWithPast 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（Idefics3Config）和輸入的不同元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (tuple(tuple(torch.FloatTensor)), 可選, 當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。包含預先計算的隱藏狀態（自注意力塊中的鍵和值），可用於加速序列解碼（參見 past_key_values 輸入）。
hidden_states (tuple[torch.FloatTensor], 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層的輸出（如果模型有嵌入層），另一個用於每層的輸出）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor], 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
image_hidden_states (tuple(torch.FloatTensor), 可選) — torch.FloatTensor 元組（一個用於影像嵌入的輸出，形狀為 (batch_size, num_images, sequence_length, hidden_size)）。由視覺編碼器生成的模型的 image_hidden_states。

Idefics3ForConditionalGeneration 的前向方法會覆蓋 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理執行前後處理步驟，而後者會靜默忽略它們。

示例

>>> import requests
>>> import torch
>>> from PIL import Image
>>> from io import BytesIO

>>> from transformers import AutoProcessor, AutoModelForVision2Seq
>>> from transformers.image_utils import load_image

>>> # Note that passing the image urls (instead of the actual pil images) to the processor is also possible
>>> image1 = load_image("https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg")
>>> image2 = load_image("https://cdn.britannica.com/59/94459-050-DBA42467/Skyline-Chicago.jpg")
>>> image3 = load_image("https://cdn.britannica.com/68/170868-050-8DDE8263/Golden-Gate-Bridge-San-Francisco.jpg")

>>> processor = AutoProcessor.from_pretrained("HuggingFaceM4/Idefics3-8B-Llama3")
>>> model = AutoModelForVision2Seq.from_pretrained("HuggingFaceM4/Idefics3-8B-Llama3", torch_dtype=torch.bfloat16, device_map="auto")

>>> # Create inputs
>>> messages = [
...     {
...         "role": "user",
...         "content": [
...             {"type": "image"},
...             {"type": "text", "text": "In this image, we can see the city of New York, and more specifically the Statue of Liberty."},
...             {"type": "image"},
...             {"type": "text", "text": "What can we see in this image?"},
...         ]
...     },
...     {
...         "role": "user",
...         "content": [
...             {"type": "image"},
...             {"type": "text", "text": "In which city is that bridge located?"},
...         ]
...     }
... ]

>>> prompts = [processor.apply_chat_template([message], add_generation_prompt=True) for message in messages]
>>> images = [[image1, image2], [image3]]
>>> inputs = processor(text=prompts, images=images, padding=True, return_tensors="pt").to(model.device)

>>> # Generate
>>> generated_ids = model.generate(**inputs, max_new_tokens=256)
>>> generated_texts = processor.batch_decode(generated_ids, skip_special_tokens=True)

>>> print(generated_texts[0])
Assistant: There are buildings, trees, lights, and water visible in this image.

>>> print(generated_texts[1])
Assistant: The bridge is in San Francisco.

Idefics3ImageProcessor

class transformers.Idefics3ImageProcessor

< 源 >

( do_convert_rgb: bool = True do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.LANCZOS: 1> do_image_splitting: bool = True max_image_size: typing.Optional[dict[str, int]] = None do_rescale: bool = True rescale_factor: float = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: bool = True **kwargs )

引數

do_convert_rgb (bool, 可選, 預設為 True) — 是否將影像轉換為 RGB。如果輸入影像是不同格式（例如 RGBA），這將非常有用。僅當輸入影像為 PIL 格式時有效。
do_resize (bool, 可選, 預設為 True) — 是否調整影像大小。影像的最長邊將調整為 <= size["longest_edge"]，最短邊將調整以保持輸入寬高比。
size (Dict, 可選, 預設為 {"longest_edge" -- 4 * 364}): 控制輸出影像的大小。這是一個包含鍵“longest_edge”的字典。影像將被調整大小，使得最長邊 <= size["longest_edge"]，最短邊將調整以保持輸入寬高比。
resample (Resampling, 可選, 預設為 Resampling.LANCZOS) — 調整影像大小時使用的重取樣濾波器。
do_image_splitting (bool, 可選, 預設為 True) — 是否將影像分割成與原始影像連線的子影像。它們被分割成補丁，使得每個補丁的大小為 max_image_size["height"] x max_image_size["width"]。
max_image_size (Dict, 可選, 預設為 {"longest_edge" -- 364}): 模型接受的影像補丁的最大解析度。這是一個包含鍵“longest_edge”的字典。
do_rescale (bool, 可選, 預設為 True) — 是否重新縮放影像。如果設定為 True，影像將被重新縮放，使其畫素值在 0 和 1 之間。
rescale_factor (float, 可選, 預設為 1/255) — 如果 do_rescale 設定為 True，用於重新縮放影像的縮放因子。
do_normalize (bool, 可選, 預設為 True) — 是否對影像進行歸一化。如果設定為 True，影像將被歸一化，使其均值為 image_mean，標準差為 image_std。
image_mean (float 或 list[float], 可選, 預設為 IDEFICS_STANDARD_MEAN) — 如果對影像進行歸一化，使用的均值。這是一個浮點數或長度等於影像通道數的浮點數列表。可以在 preprocess 方法中被 image_mean 引數覆蓋。
image_std (float 或 list[float], 可選, 預設為 IDEFICS_STANDARD_STD) — 如果對影像進行歸一化，使用的標準差。這是一個浮點數或長度等於影像通道數的浮點數列表。可以在 preprocess 方法中被 image_std 引數覆蓋。
do_pad (bool, 可選, 預設為 True) — 是否將影像填充到批次中最大的高度和寬度以及批次中每個樣本的影像數量，使得返回的張量形狀為 (batch_size, max_num_images, num_channels, max_height, max_width)。

構建一個 Idefics3 影像處理器。

預處理

< 源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_convert_rgb: typing.Optional[bool] = None do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample: Resampling = None do_image_splitting: typing.Optional[bool] = None do_rescale: typing.Optional[bool] = None max_image_size: typing.Optional[dict[str, int]] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_row_col_info: bool = False data_format: typing.Optional[transformers.image_utils.ChannelDimension] = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )

引數

images (ImageInput) — 要預處理的影像列表。
do_convert_rgb (bool, 可選, 預設為 self.do_convert_rgb) — 是否將影像轉換為 RGB。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 調整大小後的影像尺寸。最長邊會調整以保持輸入寬高比。
resample (int, 可選, 預設為 self.resample) — 如果調整影像大小，使用的重取樣濾波器。這可以是 PILImageResampling 列舉之一。僅當 do_resize 設定為 True 時有效。
do_image_splitting (bool, 可選, 預設為 self.do_image_splitting) — 是否將影像分割成與原始影像連線的子影像。它們被分割成補丁，使得每個補丁的大小為 max_image_size["height"] x max_image_size["width"]。
max_image_size (Dict, 可選, 預設為 self.max_image_size) — 影像的最大解析度。如果影像大於此尺寸，影像將被分割成補丁。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否重新縮放影像。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 do_rescale 設定為 True，用於縮放影像的縮放因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 用於歸一化的影像均值。僅在 do_normalize 設定為 True 時生效。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時生效。
do_pad (bool, 可選, 預設為 self.do_pad) — 是否將影像填充到批次中最大的高度和寬度。
return_tensors (str 或 TensorType, 可選) — 要返回的張量型別。可以是以下之一：
- 未設定：返回一個 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf'：返回一個 tf.Tensor 型別的批次。
- TensorType.PYTORCH 或 'pt'：返回一個 torch.Tensor 型別的批次。
- TensorType.NUMPY 或 'np'：返回一個 np.ndarray 型別的批次。
- TensorType.JAX 或 'jax'：返回一個 jax.numpy.ndarray 型別的批次。
return_row_col_info (bool, 可選, 預設為 False) — 是否返回分割後圖像的行數和列數。這用於 Idefics3Processor 根據行數和列數生成提示字串。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- 未設定：使用輸入影像的通道維度格式。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，則從輸入影像中推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。

預處理一批影像。

Idefics3ImageProcessorFast

class transformers.Idefics3ImageProcessorFast

< 來源 >

( **kwargs: typing_extensions.Unpack[transformers.image_processing_utils_fast.DefaultFastImageProcessorKwargs] )

構建一個快速的 Idefics3 影像處理器。

預處理

< 來源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.idefics3.image_processing_idefics3_fast.Idefics3FastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>

引數

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 待預處理的影像。需要單個或一批畫素值在 0 到 255 範圍內的影像。如果傳入畫素值在 0 到 1 之間的影像，請設定 do_rescale=False。
do_resize (bool, 可選) — 是否調整影像大小。
size (dict[str, int], 可選) — 描述模型的最大輸入尺寸。
default_to_square (bool, 可選) — 如果 size 是一個整數，在調整大小時是否預設為方形影像。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像大小，要使用的重取樣過濾器。這可以是 PILImageResampling 列舉之一。僅在 do_resize 設定為 True 時生效。
do_center_crop (bool, 可選) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], 可選) — 應用 center_crop 後輸出影像的大小。
do_rescale (bool, 可選) — 是否對影像進行縮放。
rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 設定為 True，用於縮放影像的縮放因子。
do_normalize (bool, 可選) — 是否對影像進行歸一化。
image_mean (Union[float, list[float], NoneType]) — 用於歸一化的影像均值。僅在 do_normalize 設定為 True 時生效。
image_std (Union[float, list[float], NoneType]) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時生效。
do_convert_rgb (bool, 可選) — 是否將影像轉換為 RGB。
return_tensors (Union[str, ~utils.generic.TensorType, NoneType]) — 如果設定為 `pt`，則返回堆疊的張量，否則返回張量列表。
data_format (~image_utils.ChannelDimension, 可選) — 僅支援 ChannelDimension.FIRST。為與慢速處理器相容而新增。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定，則從輸入影像中推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。
device (torch.device, 可選) — 處理影像的裝置。如果未設定，則從輸入影像中推斷裝置。
disable_grouping (bool, 可選) — 是否停用按大小對影像進行分組，以便單獨處理而不是批次處理。如果為 None，則在影像位於 CPU 上時將設定為 True，否則設定為 False。此選擇基於經驗觀察，詳情請見：https://github.com/huggingface/transformers/pull/38157
do_pad (bool, 可選) — 是否填充影像。如果為 True，將把批次中影像的補丁維度填充到批次中最大的補丁數。將使用零在底部和右側進行填充。
do_image_splitting (bool, 可選, 預設為 True) — 是否將影像分割成與原始影像拼接的子影像。它們被分割成補丁，使得每個補丁的大小為 max_image_size["height"] x max_image_size["width"]。
max_image_size (Dict, 可選, 預設為 {"longest_edge" -- 364}): 模型接受的影像補丁的最大解析度。這是一個包含鍵“longest_edge”的字典。
return_row_col_info (bool, 可選, 預設為 False) — 是否返回影像的行和列資訊。

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/陣列/張量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`，以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

Idefics3Processor

class transformers.Idefics3Processor

< 來源 >

( image_processor tokenizer = None image_seq_len: int = 169 chat_template: typing.Optional[str] = None **kwargs )

引數

image_processor (Idefics3ImageProcessor) — Idefics3ImageProcessor 的一個例項。影像處理器是必需的輸入。
tokenizer (PreTrainedTokenizerBase, 可選) — PreTrainedTokenizerBase 的一個例項。這應與模型的文字模型相對應。分詞器是必需的輸入。
image_seq_len (int, 可選, 預設為 169) — 影像序列的長度，即輸入中每個影像的標記數。此引數用於根據輸入提示和影像標記構建字串，並應與模型使用的值匹配。其計算公式為：image_seq_len = int(((image_size // patch_size) ** 2) / (scale_factor**2))
chat_template (str, 可選) — 一個 Jinja 模板，用於將聊天中的訊息列表轉換為可分詞的字串。

構建一個 Idefics3 處理器，它將 LLama 分詞器和 Idefics3 影像處理器包裝成一個單一的處理器。

Idefics3Processor 提供了 Idefics3ImageProcessor 和 Idefics3TokenizerFast 的所有功能。有關更多資訊，請參閱 call() 和 decode() 的文件字串。

call

< 來源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor'], list[typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]], list[list[typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]]]] = None text: typing.Union[str, ForwardRef('PreTokenizedInput'), list[str], list['PreTokenizedInput']] = None audio = None videos = None image_seq_len: typing.Optional[int] = None **kwargs: typing_extensions.Unpack[transformers.models.idefics3.processing_idefics3.Idefics3ProcessorKwargs] )

引數

images (PIL.Image.Image, np.ndarray, torch.Tensor, list[PIL.Image.Image], list[np.ndarray], list[torch.Tensor], 可選) — 要準備的影像或影像批次。每個影像可以是 PIL 影像、NumPy 陣列或 PyTorch 張量。如果是 list[ImageInput] 型別，則假定這是用於單個提示，即批次大小為 1。
text (Union[TextInput, PreTokenizedInput, list[TextInput], list[PreTokenizedInput]], 可選) — 要編碼的序列或序列批次。每個序列可以是一個字串或一個字串列表（預分詞的字串）。如果序列以字串列表（預分詞）的形式提供，您必須設定 `is_split_into_words=True`（以消除與序列批次的歧義）。每當遇到影像標記 `<image>` 時，它會被擴充套件為 `<fake_token_around_image>` + `<row_x_col_y>` + `<image>` * `image_seq_len` * `<fake_token_around_image>`。
image_seq_len (int, 可選) — 影像序列的長度。如果未提供，則使用 self.image_seq_len 的預設值。image_seq_len 應等於 int(((image_size // patch_size) ** 2) / (scale_factor**2))
return_tensors (Union[str, TensorType], 可選) — 如果設定，將返回特定框架的張量。有關更多資訊，請參閱 PreTrainedTokenizerFast.call()。

處理輸入提示並返回BatchEncoding。

示例

>>> import requests
>>> from transformers import Idefics3Processor
>>> from transformers.image_utils import load_image

>>> processor = Idefics3Processor.from_pretrained("HuggingFaceM4/Idefics3-8B-Llama3")
>>> processor.image_processor.do_image_splitting = False  # Force as False to simplify the example

>>> url1 = "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
>>> url2 = "https://cdn.britannica.com/59/94459-050-DBA42467/Skyline-Chicago.jpg"

>>> image1, image2 = load_image(url1), load_image(url2)
>>> images = [[image1], [image2]]

>>> text = [
...     "<image>In this image, we see",
...     "bla bla bla<image>",
... ]
>>> outputs = processor(images=images, text=text, return_tensors="pt", padding=True)
>>> input_ids = outputs.input_ids
>>> input_tokens = processor.tokenizer.batch_decode(input_ids)
>>> print(input_tokens)
['<|begin_of_text|><fake_token_around_image><global-img>((<image>)*169)<fake_token_around_image> In this image, we see', '<|reserved_special_token_0|><|reserved_special_token_0|><|reserved_special_token_0|><|begin_of_text|>bla bla bla<fake_token_around_image><global-img>((<image>)*169)<fake_token_around_image>']

< > 在 GitHub 上更新

Transformers

Idefics3

概述

使用技巧

Idefics3Config

class transformers.Idefics3Config

Idefics3VisionConfig

class transformers.Idefics3VisionConfig

Idefics3VisionTransformer

class transformers.Idefics3VisionTransformer

Idefics3Model

class transformers.Idefics3Model

forward

Idefics3ForConditionalGeneration

class transformers.Idefics3ForConditionalGeneration

forward

Idefics3ImageProcessor

class transformers.Idefics3ImageProcessor

預處理

Idefics3ImageProcessorFast

class transformers.Idefics3ImageProcessorFast

預處理

Idefics3Processor

class transformers.Idefics3Processor

__call__

call