VipLlava

概述

VipLlava 模型由 Mu Cai、Haotian Liu、Siva Karthik Mustikovela、Gregory P. Meyer、Yuning Chai、Dennis Park 和 Yong Jae Lee 在《讓大型多模態模型理解任意視覺提示》一文中提出。

VipLlava 透過在訓練過程中標記影像並使用“紅色邊界框”或“指向箭頭”等自然線索與模型互動來增強 Llava 的訓練協議。

論文摘要如下：

雖然現有的視覺-語言多模態大模型專注於對整幅影像的理解，但在實現區域特定理解方面存在顯著差距。目前使用文字座標或空間編碼的方法往往無法提供使用者友好的視覺提示介面。為解決這一挑戰，我們引入了一種新型的多模態模型，能夠解碼任意視覺提示。這使得使用者可以直觀地標記影像，並使用“紅色邊界框”或“指向箭頭”等自然線索與模型互動。我們簡單的設計直接將視覺標記疊加到 RGB 影像上，無需複雜的區域編碼，卻在 Visual7W、PointQA 和 Visual Commonsense Reasoning 基準等區域理解任務上取得了最先進的效能。此外，我們還提出了 ViP-Bench，這是一個全面的基準，用於評估模型在多個維度上理解視覺提示的能力，從而推動該領域未來的研究。程式碼、資料和模型均已公開。

原始程式碼可在此處找到：這裡。

此模型由 Younes Belkada 貢獻。

使用技巧：

該架構類似於Llava架構，不同之處在於多模態投影器接受一組連線的視覺隱藏狀態，並且在該模組上有一個額外的層範數層。
我們建議使用者在計算批生成時使用 padding_side="left"，因為它能帶來更準確的結果。只需確保在生成前呼叫 processor.tokenizer.padding_side = "left"。
請注意，該模型尚未明確訓練以在同一提示中處理多張影像，儘管這在技術上是可能的，但您可能會遇到不準確的結果。

[!NOTE] v4.46 版本之後釋出的 LLaVA 模型將發出關於新增 `processor.patch_size = {{patch_size}}`、`processor.num_additional_image_tokens = {{num_additional_image_tokens}}` 和 `processor.vision_feature_select_strategy = {{vision_feature_select_strategy}}` 的警告。強烈建議如果您擁有模型檢查點，則將這些屬性新增到處理器中；如果不是您擁有的，則開啟 PR。新增這些屬性意味著 LLaVA 將嘗試推斷每張影像所需的影像標記數量，並用與標記數量相同數量的 `` 佔位符擴充套件文字。通常每張影像大約 500 個標記，因此請確保文字未被截斷，否則在合併嵌入時會出現故障。這些屬性可以從模型配置中獲取，例如 `model.config.vision_config.patch_size` 或 `model.config.vision_feature_select_strategy`。如果視覺主幹添加了 CLS 標記，則 `num_additional_image_tokens` 應為 `1`；如果未向視覺補丁新增任何額外內容，則應為 `0`。

為了獲得更好的結果，我們建議使用者使用處理器的 `apply_chat_template()` 方法來正確格式化您的提示。為此，您需要構建一個對話歷史，傳入一個純字串不會格式化您的提示。聊天模板中對話歷史中的每條訊息都是一個字典，包含“role”和“content”鍵。 “content”應為字典列表，用於“text”和“image”模態，如下所示：

from transformers import AutoProcessor

processor = AutoProcessor.from_pretrained("llava-hf/vip-llava-7b-hf")

conversation = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What’s shown in this image?"},
        ],
    },
    {
        "role": "assistant",
        "content": [{"type": "text", "text": "This image shows a red stop sign."},]
    },
    {

        "role": "user",
        "content": [
            {"type": "text", "text": "Describe the image in more details."},
        ],
    },
]

text_prompt = processor.apply_chat_template(conversation, add_generation_prompt=True)

# Note that the template simply formats your prompt, you still have to tokenize it and obtain pixel values for your images
print(text_prompt)
>>> "###Human: <image>\nWhat’s shown in this image?###Assistant: This image shows a red stop sign.###Human: Describe the image in more details.###Assistant:"

如果您想自己構建聊天提示，以下是 VipLLaVa 檢查點接受的提示格式列表

A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n<prompt>###Assistant:

對於多輪對話

A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n<prompt1>###Assistant: <answer1>###Human: <prompt2>###Assistant:

VipLlavaConfig

class transformers.VipLlavaConfig

< 來源 >

( vision_config = None text_config = None image_token_index = 32000 projector_hidden_act = 'gelu' projector_layernorm_eps = 1e-05 vision_feature_layers = [-2, -5, -8, -11, 6] image_seq_length = 576 **kwargs )

引數

vision_config (VipLlavaVisionConfig, 可選) — 自定義視覺配置或字典
text_config (Union[AutoConfig, dict], 可選) — 文字主幹的配置物件。可以是 LlamaConfig 或 MistralConfig 中的任何一個。
image_token_index (int, 可選, 預設為 32000) — 用於編碼影像提示的影像 token 索引。
projector_hidden_act (str, 可選, 預設為 "gelu") — 多模態投影器使用的啟用函式。
projector_layernorm_eps (float, 可選, 預設為 1e-05) — 投影器層範數的層範數 epsilon
vision_feature_layers (Union[int, list[int]], 可選, 預設為 [-2, -5, -8, -11, 6]) — 視覺特徵層，或從中選擇視覺特徵的層索引列表。
image_seq_length (int, 可選, 預設為 576) — 單個影像嵌入的序列長度。

這是用於儲存 VipLlavaForConditionalGeneration 配置的配置類。它用於根據指定的引數例項化 VipLlava 模型，定義模型架構。使用預設值例項化配置將生成與 VipLlava-9B 類似的配置。

例如 ybelkada/vip-llava-7b-hf

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import VipLlavaForConditionalGeneration, VipLlavaConfig, CLIPVisionConfig, LlamaConfig

>>> # Initializing a CLIP-vision config
>>> vision_config = CLIPVisionConfig()

>>> # Initializing a Llama config
>>> text_config = LlamaConfig()

>>> # Initializing a VipLlava vipllava-7b style configuration
>>> configuration = VipLlavaConfig(vision_config, text_config)

>>> # Initializing a model from the vipllava-7b style configuration
>>> model = VipLlavaForConditionalGeneration(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

VipLlava模型

class transformers.VipLlavaModel

< 來源 >

( config: VipLlavaConfig )

引數

配置 (VipLlavaConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法以載入模型權重。

VipLlava 模型由視覺骨幹和語言模型組成，不帶語言建模頭。

此模型繼承自 PreTrainedModel。請檢視超類文件以瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

前向傳播

< 來源 >

( input_ids: LongTensor = None pixel_values: FloatTensor = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None vision_feature_layers: typing.Union[int, list[int], NoneType] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **lm_kwargs ) → transformers.models.vipllava.modeling_vipllava.VipLlavaModelOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor) — 詞彙表中輸入序列 token 的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參見 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
pixel_values (形狀為 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲得。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 避免對填充 token 索引執行注意力操作的掩碼。在 [0, 1] 中選擇的掩碼值：
- 1 表示未被掩碼的 token，
- 0 表示被掩碼的 token。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (list[torch.FloatTensor], 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加快序列解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參見我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也被稱為舊版快取格式。
模型將輸出與作為輸入提供給它的快取相同的快取格式。如果沒有傳入 past_key_values，將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後 input_ids（那些沒有將其過去鍵值狀態提供給此模型的）的形狀 (batch_size, 1)，而不是所有 input_ids 的形狀 (batch_size, sequence_length)。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 另外，除了傳遞 input_ids 之外，您還可以選擇直接傳遞嵌入表示。如果您希望對如何將 input_ids 索引轉換為相關向量擁有比模型內部嵌入查詢矩陣更多的控制，這會很有用。
vision_feature_layers (Union[int, list[int]], 可選) — 視覺特徵層，或選擇視覺特徵的層索引列表。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加快解碼速度（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參見返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參見返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是純元組。
cache_position (形狀為 (sequence_length) 的 torch.LongTensor, 可選) — 表示輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。

transformers.models.vipllava.modeling_vipllava.VipLlavaModelOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.models.vipllava.modeling_vipllava.VipLlavaModelOutputWithPast 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），包含根據配置（VipLlavaConfig）和輸入的不同元素。

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 模型最後一層輸出的隱藏狀態序列。
past_key_values (tuple(tuple(torch.FloatTensor)), 可選, 當 use_cache=True 傳入或 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
image_hidden_states (torch.FloatTensor, 可選) — 大小為 (batch_size, num_images, sequence_length, hidden_size) 的 torch.FloatTensor。模型由視覺編碼器生成並投影最後一個隱藏狀態後的 image_hidden_states。

VipLlavaModel 前向方法，覆蓋了 __call__ 特殊方法。

儘管前向傳播的配方需要在此函式中定義，但之後應該呼叫 Module 例項，而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則會默默地忽略它們。

get_image_features

< 來源 >

( pixel_values: FloatTensor vision_feature_layers: typing.Union[int, list[int], NoneType] = None ) → image_features (torch.Tensor)

引數

pixel_values (形狀為 (batch_size, channels, height, width) 的 torch.FloatTensor]) — 對應於輸入影像的張量。
vision_feature_layers (Union[int, list[int]]) — 視覺特徵層，或選擇視覺特徵的層索引列表。

影像特徵 (torch.Tensor)

形狀為 (num_images, image_length, embed_dim) 的影像特徵張量。

從視覺塔獲取影像最後隱藏狀態並應用多模態投影。

VipLlavaForConditionalGeneration

class transformers.VipLlavaForConditionalGeneration

< 來源 >

( config: VipLlavaConfig )

引數

config (VipLlavaConfig) — 模型的配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，只加載配置。請查閱 from_pretrained() 方法以載入模型權重。

VIPLLAVA 模型，由視覺骨幹網路和語言模型組成。

此模型繼承自 PreTrainedModel。請檢視超類文件以瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

前向傳播

< 來源 >

( input_ids: LongTensor = None pixel_values: FloatTensor = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None vision_feature_layers: typing.Union[int, list[int], NoneType] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **lm_kwargs ) → transformers.models.vipllava.modeling_vipllava.VipLlavaCausalLMOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

索引可以透過 AutoTokenizer 獲取。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input IDs？
pixel_values (形狀為 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor) — 對應於輸入影像的張量。畫素值可以透過 {image_processor_class} 獲取。詳情請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 避免對填充 token 索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 之間：
- 1 表示未被掩蓋的 token，
- 0 表示被掩蓋的 token。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (list[torch.FloatTensor], 可選) — 預計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在先前解碼階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含兩個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也稱為舊版快取格式。
模型將輸出與作為輸入提供的快取格式相同的快取格式。如果未傳遞 past_key_values，將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入形狀為 (batch_size, 1) 的最新 input_ids（那些沒有將其過去鍵值狀態提供給此模型的），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，您可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果您希望對如何將 input_ids 索引轉換為關聯向量（而不是模型的內部嵌入查詢矩陣）有更多控制，這會很有用。
vision_feature_layers (Union[int, list[int]], 可選) — 視覺特徵層，或選擇視覺特徵的層索引列表。
labels (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（參見 input_ids 文件字串）。索引設定為 -100 的 token 將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 之間的 token 進行計算。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是簡單的元組。
cache_position (形狀為 (sequence_length) 的 torch.LongTensor, 可選) — 描述輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。
logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果是 int，則計算最後 logits_to_keep 個 token 的 logits。如果為 0，則計算所有 input_ids 的 logits（特殊情況）。生成時只需要最後一個 token 的 logits，只計算該 token 可以節省記憶體，這對於長序列或大詞彙量來說非常顯著。如果是 torch.Tensor，則必須是 1D，對應於序列長度維度中要保留的索引。這在使用打包張量格式（批次和序列長度為單維度）時很有用。

transformers.models.vipllava.modeling_vipllava.VipLlavaCausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.models.vipllava.modeling_vipllava.VipLlavaCausalLMOutputWithPast 或 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或 config.return_dict=False 時），根據配置（VipLlavaConfig）和輸入包含各種元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (tuple(tuple(torch.FloatTensor)), 可選, 當 use_cache=True 傳入或 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple[torch.FloatTensor], 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層的輸出（如果模型有嵌入層），加上每個層的輸出）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor], 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每個層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
image_hidden_states (torch.FloatTensor, 可選) — 大小為 (batch_size, num_images, sequence_length, hidden_size) 的 torch.FloatTensor。模型由視覺編碼器生成並投影最後一個隱藏狀態後的 image_hidden_states。

VipLlavaForConditionalGeneration 的 forward 方法，重寫了 __call__ 特殊方法。

示例

>>> import torch
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, VipLlavaForConditionalGeneration

>>> model = VipLlavaForConditionalGeneration.from_pretrained("llava-hf/vip-llava-7b-hf", device_map="auto", torch_dtype=torch.float16)
>>> processor = AutoProcessor.from_pretrained("llava-hf/vip-llava-7b-hf")

>>> prompt = "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n{}###Assistant:"
>>> question = "Can you please describe this image?"
>>> prompt = prompt.format(question)
>>> url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/compel-neg.png"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(text=text, images=image, return_tensors="pt").to(0, torch.float16)

>>> # Generate
>>> generate_ids = model.generate(**inputs, max_new_tokens=20)
>>> processor.decode(generate_ids[0][len(inputs["input_ids"][0]):], skip_special_tokens=True)
The image features a brown and white cat sitting on a green surface, with a red ball in its

< > 在 GitHub 上更新

Transformers

VipLlava

概述

使用技巧：

VipLlavaConfig

class transformers.VipLlavaConfig

VipLlava模型

class transformers.VipLlavaModel

前向傳播

get_image_features

VipLlavaForConditionalGeneration

class transformers.VipLlavaForConditionalGeneration

前向傳播