SigLIP2

概述

SigLIP2 是一系列基於 SigLIP 訓練方法的、多語言的視覺-語言編碼器。它包括基於解碼器的預訓練、自蒸餾和掩碼預測，以改進密集預測任務（如分割、深度估計等）。該模型提供兩種變體：

NaFlex 支援不同的解析度並保持原始影像寬高比
FixRes 支援固定解析度並與 SigLIP 向後相容

所有原始 SigLIP2 檢查點均可在 SigLIP2 集合中找到。

點選右側邊欄的 SigLIP2 模型，可檢視如何將 SigLIP2 應用於不同影像和文字任務的更多示例。

以下示例展示了使用 Pipeline 或 AutoModel 類進行零樣本分類。

流水線

AutoModel (FixRes)

AutoModel (NaFlex)

量化透過以較低精度表示權重來減少大型模型的記憶體負擔。有關更多可用量化後端，請參閱量化概述。

以下示例使用 bitsandbytes 將權重僅量化為 int4。

import torch
import requests
from PIL import Image
from transformers import AutoProcessor, AutoModel, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(load_in_4bit=True)
model = AutoModel.from_pretrained("google/siglip2-large-patch16-512", quantization_config=bnb_config, device_map="auto", attn_implementation="sdpa")
processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
candidate_labels = ["a Pallas cat", "a lion", "a Siberian tiger"]

# follows the pipeline prompt template to get same results
texts = [f'This is a photo of {label}.' for label in candidate_labels]

# IMPORTANT: we pass `padding=max_length` and `max_length=64` since the model was trained with this
inputs = processor(text=texts, images=image, padding="max_length", max_length=64, return_tensors="pt").to("cuda")

with torch.no_grad():
    outputs = model(**inputs)

logits_per_image = outputs.logits_per_image
probs = torch.sigmoid(logits_per_image)
print(f"{probs[0][0]:.1%} that image 0 is '{candidate_labels[0]}'")

注意事項

訓練支援單節點多 GPU 設定上的 DDP 和 FSDP。但是，它不使用 torch.distributed 工具，這可能會限制批處理大小的可擴充套件性。
使用獨立的 GemmaTokenizerFast 時，請確保傳入 padding="max_length" 和 max_length=64，因為模型就是這樣訓練的。
模型是使用小寫文字訓練的，因此請確保您的文字標籤以相同的方式進行預處理。
要獲得與 Pipeline 相同的結果，應將提示模板 "This is a photo of {label}." 傳遞給處理器。
NaFlex 變體以適當的解析度處理不同型別的影像（例如，使用更大的解析度處理文件影像），同時最大限度地減少某些推理任務（如 OCR）中的寬高比失真影響。

NaFlex 會調整輸入影像的大小，使其高度和寬度在調整大小後是補丁大小的倍數。它儘可能保持寬高比失真低，並生成最多達到所需目標序列長度（max_num_patches）的序列長度。調整大小後，影像將分成一系列補丁，並新增帶有填充資訊的掩碼。

將 attn_implementation 引數切換為 "sdpa" 或 "flash_attention_2" 以使用記憶體效率更高的注意力機制。

# pip install -U flash-attn --no-build-isolation

from transformers import SiglipModel

model = SiglipModel.from_pretrained(
    "google/siglip2-so400m-patch14-384",
    attn_implementation="flash_attention_2",
    torch_dtype=torch.float16,
    device_map=device,
)

Siglip2Config

class transformers.Siglip2Config

< source >

( text_config = None vision_config = None **kwargs )

引數

text_config (dict, optional) — 用於初始化 Siglip2TextConfig 的配置選項字典。
vision_config (dict, optional) — 用於初始化 Siglip2VisionConfig 的配置選項字典。
kwargs (optional) — 關鍵字引數字典。

Siglip2Config 是用於儲存 Siglip2Model 配置的配置類。它用於根據指定引數例項化 Siglip2 模型，定義文字模型和視覺模型配置。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-224 架構的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import Siglip2Config, Siglip2Model

>>> # Initializing a Siglip2Config with google/siglip2-base-patch16-224 style configuration
>>> configuration = Siglip2Config()

>>> # Initializing a Siglip2Model (with random weights) from the google/siglip2-base-patch16-224 style configuration
>>> model = Siglip2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

>>> # We can also initialize a Siglip2Config from a Siglip2TextConfig and a Siglip2VisionConfig
>>> from transformers import Siglip2TextConfig, Siglip2VisionConfig

>>> # Initializing a Siglip2Text and Siglip2Vision configuration
>>> config_text = Siglip2TextConfig()
>>> config_vision = Siglip2VisionConfig()

>>> config = Siglip2Config.from_text_vision_configs(config_text, config_vision)

from_text_vision_configs

< source >

( text_config: Siglip2TextConfig vision_config: Siglip2VisionConfig **kwargs ) → Siglip2Config

Siglip2Config

一個配置物件的例項

從 siglip2 文字模型配置和 siglip2 視覺模型配置例項化 Siglip2Config（或派生類）。

Siglip2TextConfig

class transformers.Siglip2TextConfig

< source >

( vocab_size = 32000 hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 max_position_embeddings = 64 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 pad_token_id = 1 bos_token_id = 49406 eos_token_id = 49407 projection_size = None **kwargs )

引數

vocab_size (int, optional, defaults to 32000) — Siglip2 文字模型的詞彙表大小。定義了呼叫 Siglip2Model 時傳入的 inputs_ids 可以表示的不同 token 的數量。
hidden_size (int, optional, defaults to 768) — 編碼器層和池化層的維度。
intermediate_size (int, optional, defaults to 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, optional, defaults to 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, optional, defaults to 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
max_position_embeddings (int, optional, defaults to 64) — 此模型可能使用的最大序列長度。通常為了以防萬一會將其設定為一個大值（例如 512 或 1024 或 2048）。
hidden_act (str or function, optional, defaults to "gelu_pytorch_tanh") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu" 和 "gelu_new" "quick_gelu"。
layer_norm_eps (float, optional, defaults to 1e-06) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, optional, defaults to 0.0) — 注意力機率的 dropout 比率。
pad_token_id (int, optional, defaults to 1) — 詞彙表中填充 token 的 ID。
bos_token_id (int, optional, defaults to 49406) — 詞彙表中序列開始 token 的 ID。
eos_token_id (int, optional, defaults to 49407) — 詞彙表中序列結束 token 的 ID。
projection_size (int, optional, defaults to hidden_size) — 投影頭的大小。

這是用於儲存 Siglip2TextModel 配置的配置類。它用於根據指定引數例項化 Siglip2 文字編碼器，定義模型架構。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-224 架構文字編碼器的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import Siglip2TextConfig, Siglip2TextModel

>>> # Initializing a Siglip2TextConfig with google/siglip2-base-patch16-224 style configuration
>>> configuration = Siglip2TextConfig()

>>> # Initializing a Siglip2TextModel (with random weights) from the google/siglip2-base-patch16-224 style configuration
>>> model = Siglip2TextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Siglip2VisionConfig

class transformers.Siglip2VisionConfig

< source >

( hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 num_patches = 256 patch_size = 16 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 **kwargs )

引數

hidden_size (int, optional, defaults to 768) — 編碼器層和池化層的維度。
intermediate_size (int, optional, defaults to 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, optional, defaults to 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, optional, defaults to 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
num_channels (int, optional, defaults to 3) — 輸入影像中的通道數量。
num_patches (int, optional, defaults to 256) — 影像中補丁的數量，大小為（patch_size, patch_size）。影像將被調整大小以填充最大數量的補丁，並保持寬高比。如果結果補丁數量較少，則影像將在“補丁”維度上進行填充。
patch_size (int, optional, defaults to 16) — 每個補丁的大小（解析度）。
hidden_act (str or function, optional, defaults to "gelu_pytorch_tanh") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu" 和 "gelu_new" "quick_gelu"。
layer_norm_eps (float, optional, defaults to 1e-06) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, optional, defaults to 0.0) — 注意力機率的 dropout 比率。

這是用於儲存 Siglip2VisionModel 配置的配置類。它用於根據指定引數例項化 Siglip2 視覺編碼器，定義模型架構。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-naflex 架構視覺編碼器的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import Siglip2VisionConfig, Siglip2VisionModel

>>> # Initializing a Siglip2VisionConfig with google/siglip2-base-patch16-naflex style configuration
>>> configuration = Siglip2VisionConfig()

>>> # Initializing a Siglip2VisionModel (with random weights) from the google/siglip2-base-patch16-naflex style configuration
>>> model = Siglip2VisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Siglip2ImageProcessor

class transformers.Siglip2ImageProcessor

< source >

( do_resize: bool = True resample: PILImageResampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: float = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_rgb: typing.Optional[bool] = None patch_size: int = 16 max_num_patches: int = 256 **kwargs )

引數

do_resize (bool, 可選, 預設為 True) — 是否根據給定的 patch_size 調整影像尺寸以適應 max_num_patches。可在 preprocess 方法中的 do_resize 引數覆蓋。
resample (PILImageResampling, 可選, 預設為 Resampling.BILINEAR) — 如果調整影像尺寸，要使用的重取樣濾鏡。可在 preprocess 方法中的 resample 引數覆蓋。
do_rescale (bool, 可選, 預設為 True) — 是否按指定的比例因子 rescale_factor 縮放影像。可在 preprocess 方法中的 do_rescale 引數覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 如果縮放影像，要使用的比例因子。可在 preprocess 方法中的 rescale_factor 引數覆蓋。
do_normalize (bool, 可選, 預設為 True) — 是否按指定的均值和標準差對影像進行歸一化。可在 preprocess 方法中的 do_normalize 引數覆蓋。
image_mean (float 或 list[float], 可選, 預設為 [0.5, 0.5, 0.5]) — 如果對影像進行歸一化，要使用的均值。這是一個浮點數或浮點數列表，長度與影像中的通道數相同。可在 preprocess 方法中的 image_mean 引數覆蓋。
image_std (float 或 list[float], 可選, 預設為 [0.5, 0.5, 0.5]) — 如果對影像進行歸一化，要使用的標準差。這是一個浮點數或浮點數列表，長度與影像中的通道數相同。可在 preprocess 方法中的 image_std 引數覆蓋。可在 preprocess 方法中的 image_std 引數覆蓋。
do_convert_rgb (bool, 可選, 預設為 True) — 是否將影像轉換為 RGB。
patch_size (int, 可選, 預設為 16) — 影像將被分割成每個補丁的大小（解析度）。
max_num_patches (int, 可選, 預設為 256) — 影像將被調整大小，使其最多包含此數量的補丁，然後在“補丁”維度上進行填充以精確匹配此數量。

構造 SigLIP2 影像處理器。

預處理

< 源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None resample: typing.Optional[ForwardRef('PILImageResampling')] = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None do_convert_rgb: typing.Optional[bool] = None patch_size: typing.Optional[int] = None max_num_patches: typing.Optional[int] = None )

引數

images (ImageInput) — 要預處理的影像。期望畫素值範圍為 0 到 255 的單張或批次影像。如果傳入畫素值在 0 到 1 之間的影像，請設定 do_rescale=False。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像尺寸。
size (dict[str, int], 可選, 預設為 self.size) — 調整大小後的影像尺寸。
resample (int, 可選, 預設為 self.resample) — 如果調整影像尺寸，要使用的重取樣濾鏡。可以是列舉型別 PILImageResampling 之一。僅在 do_resize 設定為 True 時有效。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否縮放影像。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 do_rescale 設定為 True，用於縮放影像的比例因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 用於歸一化的影像均值。僅在 do_normalize 設定為 True 時有效。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時有效。
return_tensors (str 或 TensorType, 可選) — 返回張量的型別。可以是以下之一：
- 未設定：返回 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf'：返回型別為 tf.Tensor 的批次。
- TensorType.PYTORCH 或 'pt'：返回型別為 torch.Tensor 的批次。
- TensorType.NUMPY 或 'np'：返回型別為 np.ndarray 的批次。
- TensorType.JAX 或 'jax'：返回型別為 jax.numpy.ndarray 的批次。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，通道維度格式將從輸入影像推斷。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。
do_convert_rgb (bool, 可選, 預設為 self.do_convert_rgb) — 是否將影像轉換為 RGB。
patch_size (int, 可選, 預設為 self.patch_size) — 用於處理的補丁大小，與模型中使用的補丁大小相同。
max_num_patches (int, 可選, 預設為 self.max_num_patches) — 每張影像的最大補丁數，影像將被調整大小以最多包含此數量的補丁。

預處理一張或一批影像。

Siglip2ImageProcessorFast

class transformers.Siglip2ImageProcessorFast

< 源 >

( **kwargs: typing_extensions.Unpack[transformers.models.siglip2.image_processing_siglip2_fast.Siglip2FastImageProcessorKwargs] )

構造一個快速 Siglip2 影像處理器。

預處理

< 源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.siglip2.image_processing_siglip2_fast.Siglip2FastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>

引數

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 要預處理的影像。期望畫素值範圍為 0 到 255 的單張或批次影像。如果傳入畫素值在 0 到 1 之間的影像，請設定 do_rescale=False。
do_resize (bool, 可選) — 是否調整影像尺寸。
size (dict[str, int], 可選) — 描述模型的最大輸入維度。
default_to_square (bool, 可選) — 調整大小後，如果尺寸為整數，是否預設為正方形影像。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像尺寸，要使用的重取樣濾鏡。可以是列舉型別 PILImageResampling 之一。僅在 do_resize 設定為 True 時有效。
do_center_crop (bool, 可選) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], 可選) — 應用 center_crop 後輸出影像的尺寸。
do_rescale (bool, 可選) — 是否縮放影像。
rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 設定為 True，用於縮放影像的比例因子。
do_normalize (bool, 可選) — 是否對影像進行歸一化。
image_mean (Union[float, list[float], NoneType]) — 用於歸一化的影像均值。僅在 do_normalize 設定為 True 時有效。
image_std (Union[float, list[float], NoneType]) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時有效。
do_convert_rgb (bool, 可選) — 是否將影像轉換為 RGB。
return_tensors (str 或 ~utils.generic.TensorType, 可選) — 如果設定為 `pt`，則返回堆疊張量，否則返回張量列表。
data_format (~image_utils.ChannelDimension, 可選) — 僅支援 ChannelDimension.FIRST。為與慢速處理器相容而新增。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定，通道維度格式將從輸入影像推斷。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。
device (torch.device, 可選) — 處理影像的裝置。如果未設定，裝置將從輸入影像推斷。
disable_grouping (bool, 可選) — 是否停用影像按大小分組以單獨處理而不是批次處理。如果為 None，則如果影像在 CPU 上，則設定為 True，否則設定為 False。此選擇基於經驗觀察，詳情如下：https://github.com/huggingface/transformers/pull/38157
patch_size (int, 可選, 預設為 16) — 影像將分割成的每個補丁的大小（解析度）。
max_num_patches (int, 可選, 預設為 256) — 影像將被調整大小，使其最多包含此數量的補丁，然後在“補丁”維度上進行填充以精確匹配此數量。

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/陣列/張量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`，以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

Siglip2Processor

class transformers.Siglip2Processor

< source >

( image_processor tokenizer )

引數

image_processor (Siglip2ImageProcessor) — 影像處理器是必需的輸入。
tokenizer (GemmaTokenizerFast) — 分詞器是必需的輸入。

構建一個 Siglip2 處理器，它將 Siglip2 影像處理器和 Gemma 分詞器封裝到一個處理器中。

Siglip2Processor 提供 Siglip2ImageProcessor 和 GemmaTokenizerFast 的所有功能。有關更多資訊，請參閱 __call__() 和 decode()。

批解碼

< source >

( *args **kwargs )

此方法將其所有引數轉發給 Siglip2Tokenizer 的 batch_decode()。有關更多資訊，請參閱此方法的文件字串。

解碼

< source >

( *args **kwargs )

此方法將其所有引數轉發給 Siglip2Tokenizer 的 decode()。有關更多資訊，請參閱此方法的文件字串。

Siglip2Model

class transformers.Siglip2Model

< source >

( config: Siglip2Config )

引數

config (Siglip2Config) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。檢視 from_pretrained() 方法以載入模型權重。

不帶任何特定頭部輸出原始隱藏狀態的裸 Siglip2 模型。

此模型繼承自 PreTrainedModel。檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件，瞭解所有與一般使用和行為相關的事項。

前向傳播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None return_loss: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.models.siglip2.modeling_siglip2.Siglip2Output 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor，可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
pixel_values (形狀為 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_attention_mask (形狀為 (batch_size, image_size, image_size) 的 torch.Tensor，可選) — 用於避免對填充畫素索引執行注意力操作的掩碼。
spatial_shapes (形狀為 (batch_size, 2) 的 torch.LongTensor) — 包含輸入影像空間尺寸（高度、寬度）的張量。
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中：
- 1 表示未被掩蓋的標記，
- 0 表示被掩蓋的標記。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor，可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
return_loss (bool，可選) — 是否返回對比損失。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。

transformers.models.siglip2.modeling_siglip2.Siglip2Output 或 tuple(torch.FloatTensor)

一個 transformers.models.siglip2.modeling_siglip2.Siglip2Output 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或當 config.return_dict=False 時），包含根據配置（Siglip2Config）和輸入的不同元素。

loss (torch.FloatTensor，形狀為 (1,), 可選, 當 return_loss 為 True 時返回) — 影像-文字相似度的對比損失。
logits_per_image (形狀為 (image_batch_size, text_batch_size) 的 torch.FloatTensor) — image_embeds 和 text_embeds 之間的縮放點積分數。這表示影像-文字相似性分數。
logits_per_text (形狀為 (text_batch_size, image_batch_size) 的 torch.FloatTensor) — text_embeds 和 image_embeds 之間的縮放點積分數。這表示文字-影像相似性分數。
text_embeds (形狀為 (batch_size, output_dim) 的 torch.FloatTensor) — 透過將投影層應用於 Siglip2TextModel 的池化輸出獲得的文字嵌入。
image_embeds (形狀為 (batch_size, output_dim) 的 torch.FloatTensor) — 透過將投影層應用於 Siglip2VisionModel 的池化輸出獲得的影像嵌入。
text_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.text_model_output，預設為 None) — Siglip2TextModel 的輸出。
vision_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.vision_model_output，預設為 None) — Siglip2VisionModel 的輸出。

Siglip2Model 前向傳播方法，覆蓋了 __call__ 特殊方法。

儘管前向傳播的方案需要在此函式中定義，但之後應該呼叫 Module 例項，而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則默默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> texts = ["a photo of 2 cats", "a photo of 2 dogs"]
>>> # important: we pass `padding=max_length` since the model was trained with this
>>> inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> logits_per_image = outputs.logits_per_image
>>> probs = torch.sigmoid(logits_per_image) # these are the probabilities
>>> print(f"{probs[0][0]:.1%} that image 0 is '{texts[0]}'")
31.9% that image 0 is 'a photo of 2 cats'

獲取文字特徵

< source >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → text_features (形狀為 (batch_size, output_dim) 的 torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中：
- 1 表示未被掩蓋的標記，
- 0 表示被掩蓋的標記。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。

text_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 Siglip2TextModel 的池化輸出獲得的文字嵌入。

示例

>>> from transformers import AutoTokenizer, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip2-base-patch16-224")

>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")
>>> with torch.no_grad():
...     text_features = model.get_text_features(**inputs)

獲取影像特徵

< source >

( pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → image_features (形狀為 (batch_size, output_dim) 的 torch.FloatTensor)

引數

pixel_values (形狀為 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
pixel_attention_mask (形狀為 (batch_size, image_size, image_size) 的 torch.Tensor，可選) — 用於避免對填充畫素索引執行注意力操作的掩碼。
spatial_shapes (形狀為 (batch_size, 2) 的 torch.LongTensor) — 包含輸入影像空間尺寸（高度、寬度）的張量。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。

image_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 Siglip2VisionModel 的池化輸出獲得的影像嵌入。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     image_features = model.get_image_features(**inputs)

Siglip2TextModel

class transformers.Siglip2TextModel

< source >

( config: Siglip2TextConfig )

引數

config (Siglip2TextConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。檢視 from_pretrained() 方法以載入模型權重。

Siglip2 的文字模型，不帶任何頭部或投影。

此模型繼承自 PreTrainedModel。檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件，瞭解所有與一般使用和行為相關的事項。

前向傳播

< source >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中：
- 1 表示未被掩蓋的標記，
- 0 表示被掩蓋的標記。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或當 config.return_dict=False 時），包含根據配置（Siglip2Config）和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (形狀為 (batch_size, hidden_size) 的 torch.FloatTensor) — 序列中第一個標記（分類標記）的最後一層隱藏狀態，經過輔助預訓練任務所用層的進一步處理。例如，對於 BERT 系列模型，這會在經過線性層和 tanh 啟用函式處理後返回分類標記。線性層權重在預訓練期間根據下一個句子預測（分類）目標進行訓練。
hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入層輸出一個 + 每個層輸出一個）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每個層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

Siglip2TextModel 前向傳播方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, Siglip2TextModel

>>> model = Siglip2TextModel.from_pretrained("google/siglip2-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip2-base-patch16-224")

>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states

Siglip2VisionModel

class transformers.Siglip2VisionModel

< source >

( config: Siglip2VisionConfig )

引數

config (Siglip2VisionConfig) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

Siglip2 的視覺模型，頂部沒有任何頭部或投影層。

此模型繼承自 PreTrainedModel。檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件，瞭解所有與一般使用和行為相關的事項。

前向傳播

< source >

( pixel_values: FloatTensor pixel_attention_mask: Tensor spatial_shapes: LongTensor output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling or tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。詳情請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 來處理影像）。
pixel_attention_mask (torch.Tensor，形狀為 (batch_size, image_size, image_size), 可選) — 用於避免在填充畫素索引上執行注意力操作的掩碼。
spatial_shapes (torch.LongTensor，形狀為 (batch_size, 2)) — 包含輸入影像空間維度（高度，寬度）的張量。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的 hidden_states。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (形狀為 (batch_size, hidden_size) 的 torch.FloatTensor) — 序列中第一個標記（分類標記）的最後一層隱藏狀態，經過輔助預訓練任務所用層的進一步處理。例如，對於 BERT 系列模型，這會在經過線性層和 tanh 啟用函式處理後返回分類標記。線性層權重在預訓練期間根據下一個句子預測（分類）目標進行訓練。
hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入層輸出一個 + 每個層輸出一個）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每個層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

Siglip2VisionModel 的 forward 方法，重寫了 __call__ 特殊方法。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Siglip2VisionModel

>>> model = Siglip2VisionModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled features

Siglip2ForImageClassification

class transformers.Siglip2ForImageClassification

< source >

( config: Siglip2Config )

引數

config (Siglip2Config) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

Siglip2 視覺編碼器，頂部帶有影像分類頭（在 patch token 的池化最終隱藏狀態之上的線性層），例如用於 ImageNet。

此模型繼承自 PreTrainedModel。檢視超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件，瞭解所有與一般使用和行為相關的事項。

前向傳播

< source >

( pixel_values: typing.Optional[torch.Tensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutput or tuple(torch.FloatTensor)

引數

pixel_values (torch.Tensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。詳情請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 來處理影像）。
pixel_attention_mask (torch.Tensor，形狀為 (batch_size, image_size, image_size), 可選) — 用於避免在填充畫素索引上執行注意力操作的掩碼。
spatial_shapes (torch.LongTensor，形狀為 (batch_size, 2)) — 包含輸入影像空間維度（高度，寬度）的張量。
labels (torch.LongTensor，形狀為 (batch_size,), 可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失）；如果 config.num_labels > 1，則計算分類損失（交叉熵損失）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的 hidden_states。

transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.ImageClassifierOutput 或一個 torch.FloatTensor 的元組（如果傳入 return_dict=False 或 config.return_dict=False），包含根據配置 (Siglip2Config) 和輸入而定的各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包含嵌入層輸出，以及每個階段的輸出），形狀為 (batch_size, sequence_length, hidden_size)。模型在每個階段輸出處的隱藏狀態（也稱為特徵圖）。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, patch_size, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

Siglip2ForImageClassification 的 forward 方法，重寫了 __call__ 特殊方法。

示例

>>> from transformers import AutoImageProcessor, Siglip2ForImageClassification
>>> import torch
>>> from PIL import Image
>>> import requests

>>> torch.manual_seed(3)
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> # note: we are loading a `Siglip2Model` from the hub here,
>>> # so the head will be randomly initialized, hence the predictions will be random if seed is not set above.
>>> image_processor = AutoImageProcessor.from_pretrained("google/siglip2-base-patch16-224")
>>> model = Siglip2ForImageClassification.from_pretrained("google/siglip2-base-patch16-224")

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the two classes
>>> predicted_class_idx = logits.argmax(-1).item()
>>> print("Predicted class:", model.config.id2label[predicted_class_idx])
Predicted class: LABEL_1

< > 在 GitHub 上更新

Transformers

SigLIP2

概述

注意事項

Siglip2Config

class transformers.Siglip2Config

from_text_vision_configs

Siglip2TextConfig

class transformers.Siglip2TextConfig

Siglip2VisionConfig

class transformers.Siglip2VisionConfig

Siglip2ImageProcessor

class transformers.Siglip2ImageProcessor

預處理

Siglip2ImageProcessorFast

class transformers.Siglip2ImageProcessorFast

預處理

Siglip2Processor

class transformers.Siglip2Processor

批解碼

解碼

Siglip2Model

class transformers.Siglip2Model

前向傳播

獲取文字特徵

獲取影像特徵

Siglip2TextModel

class transformers.Siglip2TextModel

前向傳播

Siglip2VisionModel

class transformers.Siglip2VisionModel

前向傳播

Siglip2ForImageClassification

class transformers.Siglip2ForImageClassification

前向傳播