Transformers 文件

SigLIP2

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

PyTorch FlashAttention SDPA

SigLIP2

概述

SigLIP2 是一系列基於 SigLIP 訓練方法的、多語言的視覺-語言編碼器。它包括基於解碼器的預訓練、自蒸餾和掩碼預測,以改進密集預測任務(如分割、深度估計等)。該模型提供兩種變體:

  • NaFlex 支援不同的解析度並保持原始影像寬高比
  • FixRes 支援固定解析度並與 SigLIP 向後相容

所有原始 SigLIP2 檢查點均可在 SigLIP2 集合中找到。

點選右側邊欄的 SigLIP2 模型,可檢視如何將 SigLIP2 應用於不同影像和文字任務的更多示例。

以下示例展示了使用 PipelineAutoModel 類進行零樣本分類。

流水線
AutoModel (FixRes)
AutoModel (NaFlex)
import torch
from transformers import pipeline

image = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
candidate_labels = ["a Pallas cat", "a lion", "a Siberian tiger"]

pipeline = pipeline(task="zero-shot-image-classification", model="google/siglip2-base-patch16-224", device=0, torch_dtype=torch.bfloat16)
pipeline(image, candidate_labels=candidate_labels)

量化透過以較低精度表示權重來減少大型模型的記憶體負擔。有關更多可用量化後端,請參閱量化概述。

以下示例使用 bitsandbytes 將權重僅量化為 int4。

import torch
import requests
from PIL import Image
from transformers import AutoProcessor, AutoModel, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(load_in_4bit=True)
model = AutoModel.from_pretrained("google/siglip2-large-patch16-512", quantization_config=bnb_config, device_map="auto", attn_implementation="sdpa")
processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
candidate_labels = ["a Pallas cat", "a lion", "a Siberian tiger"]

# follows the pipeline prompt template to get same results
texts = [f'This is a photo of {label}.' for label in candidate_labels]

# IMPORTANT: we pass `padding=max_length` and `max_length=64` since the model was trained with this
inputs = processor(text=texts, images=image, padding="max_length", max_length=64, return_tensors="pt").to("cuda")

with torch.no_grad():
    outputs = model(**inputs)

logits_per_image = outputs.logits_per_image
probs = torch.sigmoid(logits_per_image)
print(f"{probs[0][0]:.1%} that image 0 is '{candidate_labels[0]}'")

注意事項

  • 訓練支援單節點多 GPU 設定上的 DDP 和 FSDP。但是,它不使用 torch.distributed 工具,這可能會限制批處理大小的可擴充套件性。

  • 使用獨立的 GemmaTokenizerFast 時,請確保傳入 padding="max_length"max_length=64,因為模型就是這樣訓練的。

  • 模型是使用小寫文字訓練的,因此請確保您的文字標籤以相同的方式進行預處理。

  • 要獲得與 Pipeline 相同的結果,應將提示模板 "This is a photo of {label}." 傳遞給處理器。

  • NaFlex 變體以適當的解析度處理不同型別的影像(例如,使用更大的解析度處理文件影像),同時最大限度地減少某些推理任務(如 OCR)中的寬高比失真影響。

    NaFlex 會調整輸入影像的大小,使其高度和寬度在調整大小後是補丁大小的倍數。它儘可能保持寬高比失真低,並生成最多達到所需目標序列長度(max_num_patches)的序列長度。調整大小後,影像將分成一系列補丁,並新增帶有填充資訊的掩碼。

  • attn_implementation 引數切換為 "sdpa""flash_attention_2" 以使用記憶體效率更高的注意力機制。

    # pip install -U flash-attn --no-build-isolation
    
    from transformers import SiglipModel
    
    model = SiglipModel.from_pretrained(
        "google/siglip2-so400m-patch14-384",
        attn_implementation="flash_attention_2",
        torch_dtype=torch.float16,
        device_map=device,
    )

Siglip2Config

class transformers.Siglip2Config

< >

( text_config = None vision_config = None **kwargs )

引數

  • text_config (dict, optional) — 用於初始化 Siglip2TextConfig 的配置選項字典。
  • vision_config (dict, optional) — 用於初始化 Siglip2VisionConfig 的配置選項字典。
  • kwargs (optional) — 關鍵字引數字典。

Siglip2Config 是用於儲存 Siglip2Model 配置的配置類。它用於根據指定引數例項化 Siglip2 模型,定義文字模型和視覺模型配置。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-224 架構的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import Siglip2Config, Siglip2Model

>>> # Initializing a Siglip2Config with google/siglip2-base-patch16-224 style configuration
>>> configuration = Siglip2Config()

>>> # Initializing a Siglip2Model (with random weights) from the google/siglip2-base-patch16-224 style configuration
>>> model = Siglip2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

>>> # We can also initialize a Siglip2Config from a Siglip2TextConfig and a Siglip2VisionConfig
>>> from transformers import Siglip2TextConfig, Siglip2VisionConfig

>>> # Initializing a Siglip2Text and Siglip2Vision configuration
>>> config_text = Siglip2TextConfig()
>>> config_vision = Siglip2VisionConfig()

>>> config = Siglip2Config.from_text_vision_configs(config_text, config_vision)

from_text_vision_configs

< >

( text_config: Siglip2TextConfig vision_config: Siglip2VisionConfig **kwargs ) Siglip2Config

返回

Siglip2Config

一個配置物件的例項

從 siglip2 文字模型配置和 siglip2 視覺模型配置例項化 Siglip2Config(或派生類)。

Siglip2TextConfig

class transformers.Siglip2TextConfig

< >

( vocab_size = 32000 hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 max_position_embeddings = 64 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 pad_token_id = 1 bos_token_id = 49406 eos_token_id = 49407 projection_size = None **kwargs )

引數

  • vocab_size (int, optional, defaults to 32000) — Siglip2 文字模型的詞彙表大小。定義了呼叫 Siglip2Model 時傳入的 inputs_ids 可以表示的不同 token 的數量。
  • hidden_size (int, optional, defaults to 768) — 編碼器層和池化層的維度。
  • intermediate_size (int, optional, defaults to 3072) — Transformer 編碼器中“中間”(即前饋)層的維度。
  • num_hidden_layers (int, optional, defaults to 12) — Transformer 編碼器中的隱藏層數量。
  • num_attention_heads (int, optional, defaults to 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
  • max_position_embeddings (int, optional, defaults to 64) — 此模型可能使用的最大序列長度。通常為了以防萬一會將其設定為一個大值(例如 512 或 1024 或 2048)。
  • hidden_act (str or function, optional, defaults to "gelu_pytorch_tanh") — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,則支援 "gelu""relu""selu""gelu_new" "quick_gelu"
  • layer_norm_eps (float, optional, defaults to 1e-06) — 層歸一化層使用的 epsilon 值。
  • attention_dropout (float, optional, defaults to 0.0) — 注意力機率的 dropout 比率。
  • pad_token_id (int, optional, defaults to 1) — 詞彙表中填充 token 的 ID。
  • bos_token_id (int, optional, defaults to 49406) — 詞彙表中序列開始 token 的 ID。
  • eos_token_id (int, optional, defaults to 49407) — 詞彙表中序列結束 token 的 ID。
  • projection_size (int, optional, defaults to hidden_size) — 投影頭的大小。

這是用於儲存 Siglip2TextModel 配置的配置類。它用於根據指定引數例項化 Siglip2 文字編碼器,定義模型架構。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-224 架構文字編碼器的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import Siglip2TextConfig, Siglip2TextModel

>>> # Initializing a Siglip2TextConfig with google/siglip2-base-patch16-224 style configuration
>>> configuration = Siglip2TextConfig()

>>> # Initializing a Siglip2TextModel (with random weights) from the google/siglip2-base-patch16-224 style configuration
>>> model = Siglip2TextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Siglip2VisionConfig

class transformers.Siglip2VisionConfig

< >

( hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 num_patches = 256 patch_size = 16 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 **kwargs )

引數

  • hidden_size (int, optional, defaults to 768) — 編碼器層和池化層的維度。
  • intermediate_size (int, optional, defaults to 3072) — Transformer 編碼器中“中間”(即前饋)層的維度。
  • num_hidden_layers (int, optional, defaults to 12) — Transformer 編碼器中的隱藏層數量。
  • num_attention_heads (int, optional, defaults to 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
  • num_channels (int, optional, defaults to 3) — 輸入影像中的通道數量。
  • num_patches (int, optional, defaults to 256) — 影像中補丁的數量,大小為(patch_size, patch_size)。影像將被調整大小以填充最大數量的補丁,並保持寬高比。如果結果補丁數量較少,則影像將在“補丁”維度上進行填充。
  • patch_size (int, optional, defaults to 16) — 每個補丁的大小(解析度)。
  • hidden_act (str or function, optional, defaults to "gelu_pytorch_tanh") — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,則支援 "gelu""relu""selu""gelu_new" "quick_gelu"
  • layer_norm_eps (float, optional, defaults to 1e-06) — 層歸一化層使用的 epsilon 值。
  • attention_dropout (float, optional, defaults to 0.0) — 注意力機率的 dropout 比率。

這是用於儲存 Siglip2VisionModel 配置的配置類。它用於根據指定引數例項化 Siglip2 視覺編碼器,定義模型架構。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-naflex 架構視覺編碼器的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import Siglip2VisionConfig, Siglip2VisionModel

>>> # Initializing a Siglip2VisionConfig with google/siglip2-base-patch16-naflex style configuration
>>> configuration = Siglip2VisionConfig()

>>> # Initializing a Siglip2VisionModel (with random weights) from the google/siglip2-base-patch16-naflex style configuration
>>> model = Siglip2VisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Siglip2ImageProcessor

class transformers.Siglip2ImageProcessor

< >

( do_resize: bool = True resample: PILImageResampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: float = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_rgb: typing.Optional[bool] = None patch_size: int = 16 max_num_patches: int = 256 **kwargs )

引數

  • do_resize (bool, 可選, 預設為 True) — 是否根據給定的 patch_size 調整影像尺寸以適應 max_num_patches。可在 preprocess 方法中的 do_resize 引數覆蓋。
  • resample (PILImageResampling, 可選, 預設為 Resampling.BILINEAR) — 如果調整影像尺寸,要使用的重取樣濾鏡。可在 preprocess 方法中的 resample 引數覆蓋。
  • do_rescale (bool, 可選, 預設為 True) — 是否按指定的比例因子 rescale_factor 縮放影像。可在 preprocess 方法中的 do_rescale 引數覆蓋。
  • rescale_factor (intfloat, 可選, 預設為 1/255) — 如果縮放影像,要使用的比例因子。可在 preprocess 方法中的 rescale_factor 引數覆蓋。
  • do_normalize (bool, 可選, 預設為 True) — 是否按指定的均值和標準差對影像進行歸一化。可在 preprocess 方法中的 do_normalize 引數覆蓋。
  • image_mean (floatlist[float], 可選, 預設為 [0.5, 0.5, 0.5]) — 如果對影像進行歸一化,要使用的均值。這是一個浮點數或浮點數列表,長度與影像中的通道數相同。可在 preprocess 方法中的 image_mean 引數覆蓋。
  • image_std (floatlist[float], 可選, 預設為 [0.5, 0.5, 0.5]) — 如果對影像進行歸一化,要使用的標準差。這是一個浮點數或浮點數列表,長度與影像中的通道數相同。可在 preprocess 方法中的 image_std 引數覆蓋。可在 preprocess 方法中的 image_std 引數覆蓋。
  • do_convert_rgb (bool, 可選, 預設為 True) — 是否將影像轉換為 RGB。
  • patch_size (int, 可選, 預設為 16) — 影像將被分割成每個補丁的大小(解析度)。
  • max_num_patches (int, 可選, 預設為 256) — 影像將被調整大小,使其最多包含此數量的補丁,然後在“補丁”維度上進行填充以精確匹配此數量。

構造 SigLIP2 影像處理器。

預處理

< >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None resample: typing.Optional[ForwardRef('PILImageResampling')] = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None do_convert_rgb: typing.Optional[bool] = None patch_size: typing.Optional[int] = None max_num_patches: typing.Optional[int] = None )

引數

  • images (ImageInput) — 要預處理的影像。期望畫素值範圍為 0 到 255 的單張或批次影像。如果傳入畫素值在 0 到 1 之間的影像,請設定 do_rescale=False
  • do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像尺寸。
  • size (dict[str, int], 可選, 預設為 self.size) — 調整大小後的影像尺寸。
  • resample (int, 可選, 預設為 self.resample) — 如果調整影像尺寸,要使用的重取樣濾鏡。可以是列舉型別 PILImageResampling 之一。僅在 do_resize 設定為 True 時有效。
  • do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否縮放影像。
  • rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 do_rescale 設定為 True,用於縮放影像的比例因子。
  • do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
  • image_mean (floatlist[float], 可選, 預設為 self.image_mean) — 用於歸一化的影像均值。僅在 do_normalize 設定為 True 時有效。
  • image_std (floatlist[float], 可選, 預設為 self.image_std) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時有效。
  • return_tensors (strTensorType, 可選) — 返回張量的型別。可以是以下之一:
    • 未設定:返回 np.ndarray 列表。
    • TensorType.TENSORFLOW'tf':返回型別為 tf.Tensor 的批次。
    • TensorType.PYTORCH'pt':返回型別為 torch.Tensor 的批次。
    • TensorType.NUMPY'np':返回型別為 np.ndarray 的批次。
    • TensorType.JAX'jax':返回型別為 jax.numpy.ndarray 的批次。
  • input_data_format (ChannelDimensionstr, 可選) — 輸入影像的通道維度格式。如果未設定,通道維度格式將從輸入影像推斷。可以是以下之一:
    • "channels_first"ChannelDimension.FIRST:影像格式為 (num_channels, height, width)。
    • "channels_last"ChannelDimension.LAST:影像格式為 (height, width, num_channels)。
    • "none"ChannelDimension.NONE:影像格式為 (height, width)。
  • do_convert_rgb (bool, 可選, 預設為 self.do_convert_rgb) — 是否將影像轉換為 RGB。
  • patch_size (int, 可選, 預設為 self.patch_size) — 用於處理的補丁大小,與模型中使用的補丁大小相同。
  • max_num_patches (int, 可選, 預設為 self.max_num_patches) — 每張影像的最大補丁數,影像將被調整大小以最多包含此數量的補丁。

預處理一張或一批影像。

Siglip2ImageProcessorFast

class transformers.Siglip2ImageProcessorFast

< >

( **kwargs: typing_extensions.Unpack[transformers.models.siglip2.image_processing_siglip2_fast.Siglip2FastImageProcessorKwargs] )

構造一個快速 Siglip2 影像處理器。

預處理

< >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.siglip2.image_processing_siglip2_fast.Siglip2FastImageProcessorKwargs] ) <class 'transformers.image_processing_base.BatchFeature'>

引數

  • images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 要預處理的影像。期望畫素值範圍為 0 到 255 的單張或批次影像。如果傳入畫素值在 0 到 1 之間的影像,請設定 do_rescale=False
  • do_resize (bool, 可選) — 是否調整影像尺寸。
  • size (dict[str, int], 可選) — 描述模型的最大輸入維度。
  • default_to_square (bool, 可選) — 調整大小後,如果尺寸為整數,是否預設為正方形影像。
  • resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像尺寸,要使用的重取樣濾鏡。可以是列舉型別 PILImageResampling 之一。僅在 do_resize 設定為 True 時有效。
  • do_center_crop (bool, 可選) — 是否對影像進行中心裁剪。
  • crop_size (dict[str, int], 可選) — 應用 center_crop 後輸出影像的尺寸。
  • do_rescale (bool, 可選) — 是否縮放影像。
  • rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 設定為 True,用於縮放影像的比例因子。
  • do_normalize (bool, 可選) — 是否對影像進行歸一化。
  • image_mean (Union[float, list[float], NoneType]) — 用於歸一化的影像均值。僅在 do_normalize 設定為 True 時有效。
  • image_std (Union[float, list[float], NoneType]) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時有效。
  • do_convert_rgb (bool, 可選) — 是否將影像轉換為 RGB。
  • return_tensors (str~utils.generic.TensorType, 可選) — 如果設定為 `pt`,則返回堆疊張量,否則返回張量列表。
  • data_format (~image_utils.ChannelDimension, 可選) — 僅支援 ChannelDimension.FIRST。為與慢速處理器相容而新增。
  • input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定,通道維度格式將從輸入影像推斷。可以是以下之一:
    • "channels_first"ChannelDimension.FIRST:影像格式為 (num_channels, height, width)。
    • "channels_last"ChannelDimension.LAST:影像格式為 (height, width, num_channels)。
    • "none"ChannelDimension.NONE:影像格式為 (height, width)。
  • device (torch.device, 可選) — 處理影像的裝置。如果未設定,裝置將從輸入影像推斷。
  • disable_grouping (bool, 可選) — 是否停用影像按大小分組以單獨處理而不是批次處理。如果為 None,則如果影像在 CPU 上,則設定為 True,否則設定為 False。此選擇基於經驗觀察,詳情如下:https://github.com/huggingface/transformers/pull/38157
  • patch_size (int, 可選, 預設為 16) — 影像將分割成的每個補丁的大小(解析度)。
  • max_num_patches (int, 可選, 預設為 256) — 影像將被調整大小,使其最多包含此數量的補丁,然後在“補丁”維度上進行填充以精確匹配此數量。

返回

<class 'transformers.image_processing_base.BatchFeature'>

  • data (dict) — 由 call 方法返回的列表/陣列/張量字典(“pixel_values”等)。
  • tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`,以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

Siglip2Processor

class transformers.Siglip2Processor

< >

( image_processor tokenizer )

引數

構建一個 Siglip2 處理器,它將 Siglip2 影像處理器和 Gemma 分詞器封裝到一個處理器中。

Siglip2Processor 提供 Siglip2ImageProcessorGemmaTokenizerFast 的所有功能。有關更多資訊,請參閱 __call__()decode()

批解碼

< >

( *args **kwargs )

此方法將其所有引數轉發給 Siglip2Tokenizer 的 batch_decode()。有關更多資訊,請參閱此方法的文件字串。

解碼

< >

( *args **kwargs )

此方法將其所有引數轉發給 Siglip2Tokenizer 的 decode()。有關更多資訊,請參閱此方法的文件字串。

Siglip2Model

class transformers.Siglip2Model

< >

( config: Siglip2Config )

引數

  • config (Siglip2Config) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重,只會載入配置。檢視 from_pretrained() 方法以載入模型權重。

不帶任何特定頭部輸出原始隱藏狀態的裸 Siglip2 模型。

此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。

前向傳播

< >

( input_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None return_loss: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) transformers.models.siglip2.modeling_siglip2.Siglip2Outputtuple(torch.FloatTensor)

引數

  • input_ids (形狀為 (batch_size, sequence_length)torch.LongTensor可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • pixel_values (形狀為 (batch_size, num_channels, image_size, image_size)torch.FloatTensor可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊,請參閱 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 處理影像)。
  • pixel_attention_mask (形狀為 (batch_size, image_size, image_size)torch.Tensor可選) — 用於避免對填充畫素索引執行注意力操作的掩碼。
  • spatial_shapes (形狀為 (batch_size, 2)torch.LongTensor) — 包含輸入影像空間尺寸(高度、寬度)的張量。
  • attention_mask (形狀為 (batch_size, sequence_length)torch.Tensor可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中:

    • 1 表示未被掩蓋的標記,
    • 0 表示被掩蓋的標記。

    什麼是注意力掩碼?

  • position_ids (形狀為 (batch_size, sequence_length)torch.LongTensor可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]

    什麼是位置 ID?

  • return_loss (bool可選) — 是否返回對比損失。
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states

返回

transformers.models.siglip2.modeling_siglip2.Siglip2Outputtuple(torch.FloatTensor)

一個 transformers.models.siglip2.modeling_siglip2.Siglip2Output 或一個 torch.FloatTensor 元組(如果傳遞 return_dict=False 或當 config.return_dict=False 時),包含根據配置(Siglip2Config)和輸入的不同元素。

  • loss (torch.FloatTensor,形狀為 (1,), 可選, 當 return_lossTrue 時返回) — 影像-文字相似度的對比損失。
  • logits_per_image (形狀為 (image_batch_size, text_batch_size)torch.FloatTensor) — image_embedstext_embeds 之間的縮放點積分數。這表示影像-文字相似性分數。
  • logits_per_text (形狀為 (text_batch_size, image_batch_size)torch.FloatTensor) — text_embedsimage_embeds 之間的縮放點積分數。這表示文字-影像相似性分數。
  • text_embeds (形狀為 (batch_size, output_dim) 的 torch.FloatTensor) — 透過將投影層應用於 Siglip2TextModel 的池化輸出獲得的文字嵌入。
  • image_embeds (形狀為 (batch_size, output_dim) 的 torch.FloatTensor) — 透過將投影層應用於 Siglip2VisionModel 的池化輸出獲得的影像嵌入。
  • text_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.text_model_output,預設為 None) — Siglip2TextModel 的輸出。
  • vision_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.vision_model_output,預設為 None) — Siglip2VisionModel 的輸出。

Siglip2Model 前向傳播方法,覆蓋了 __call__ 特殊方法。

儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module 例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> texts = ["a photo of 2 cats", "a photo of 2 dogs"]
>>> # important: we pass `padding=max_length` since the model was trained with this
>>> inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> logits_per_image = outputs.logits_per_image
>>> probs = torch.sigmoid(logits_per_image) # these are the probabilities
>>> print(f"{probs[0][0]:.1%} that image 0 is '{texts[0]}'")
31.9% that image 0 is 'a photo of 2 cats'

獲取文字特徵

< >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) text_features (形狀為 (batch_size, output_dim) 的 torch.FloatTensor)

引數

  • input_ids (形狀為 (batch_size, sequence_length)torch.Tensor可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (形狀為 (batch_size, sequence_length)torch.Tensor可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中:

    • 1 表示未被掩蓋的標記,
    • 0 表示被掩蓋的標記。

    什麼是注意力掩碼?

  • position_ids (形狀為 (batch_size, sequence_length)torch.Tensor可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]

    什麼是位置 ID?

  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states

返回

text_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 Siglip2TextModel 的池化輸出獲得的文字嵌入。

示例

>>> from transformers import AutoTokenizer, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip2-base-patch16-224")

>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")
>>> with torch.no_grad():
...     text_features = model.get_text_features(**inputs)

獲取影像特徵

< >

( pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) image_features (形狀為 (batch_size, output_dim) 的 torch.FloatTensor)

引數

  • pixel_values (形狀為 (batch_size, num_channels, image_size, image_size)torch.FloatTensor可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊,請參閱 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 處理影像)。
  • pixel_attention_mask (形狀為 (batch_size, image_size, image_size)torch.Tensor可選) — 用於避免對填充畫素索引執行注意力操作的掩碼。
  • spatial_shapes (形狀為 (batch_size, 2)torch.LongTensor) — 包含輸入影像空間尺寸(高度、寬度)的張量。
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states

返回

image_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 Siglip2VisionModel 的池化輸出獲得的影像嵌入。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     image_features = model.get_image_features(**inputs)

Siglip2TextModel

class transformers.Siglip2TextModel

< >

( config: Siglip2TextConfig )

引數

  • config (Siglip2TextConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重,只會載入配置。檢視 from_pretrained() 方法以載入模型權重。

Siglip2 的文字模型,不帶任何頭部或投影。

此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。

前向傳播

< >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

引數

  • input_ids (形狀為 (batch_size, sequence_length)torch.Tensor可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (形狀為 (batch_size, sequence_length)torch.Tensor可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中:

    • 1 表示未被掩蓋的標記,
    • 0 表示被掩蓋的標記。

    什麼是注意力掩碼?

  • position_ids (形狀為 (batch_size, sequence_length)torch.Tensor可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]

    什麼是位置 ID?

  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states

返回

transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 元組(如果傳遞 return_dict=False 或當 config.return_dict=False 時),包含根據配置(Siglip2Config)和輸入的不同元素。

  • last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

  • pooler_output (形狀為 (batch_size, hidden_size)torch.FloatTensor) — 序列中第一個標記(分類標記)的最後一層隱藏狀態,經過輔助預訓練任務所用層的進一步處理。例如,對於 BERT 系列模型,這會在經過線性層和 tanh 啟用函式處理後返回分類標記。線性層權重在預訓練期間根據下一個句子預測(分類)目標進行訓練。

  • hidden_states (tuple(torch.FloatTensor)可選,當傳遞 output_hidden_states=Trueconfig.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元組(如果模型有嵌入層,則為嵌入層輸出一個 + 每個層輸出一個)。

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=Trueconfig.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元組(每個層一個)。

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

Siglip2TextModel 前向傳播方法,覆蓋了 __call__ 特殊方法。

儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module 例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。

示例

>>> from transformers import AutoTokenizer, Siglip2TextModel

>>> model = Siglip2TextModel.from_pretrained("google/siglip2-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip2-base-patch16-224")

>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states

Siglip2VisionModel

class transformers.Siglip2VisionModel

< >

( config: Siglip2VisionConfig )

引數

  • config (Siglip2VisionConfig) — 模型配置類,包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

Siglip2 的視覺模型,頂部沒有任何頭部或投影層。

此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。

前向傳播

< >

( pixel_values: FloatTensor pixel_attention_mask: Tensor spatial_shapes: LongTensor output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) transformers.modeling_outputs.BaseModelOutputWithPooling or tuple(torch.FloatTensor)

引數

  • pixel_values (torch.FloatTensor,形狀為 (batch_size, num_channels, image_size, image_size)) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。詳情請參見 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 來處理影像)。
  • pixel_attention_mask (torch.Tensor,形狀為 (batch_size, image_size, image_size), 可選) — 用於避免在填充畫素索引上執行注意力操作的掩碼。
  • spatial_shapes (torch.LongTensor,形狀為 (batch_size, 2)) — 包含輸入影像空間維度(高度,寬度)的張量。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的 attentions
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的 hidden_states

返回

transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 元組(如果傳遞 return_dict=False 或當 config.return_dict=False 時),包含根據配置(Siglip2Config)和輸入的不同元素。

  • last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

  • pooler_output (形狀為 (batch_size, hidden_size)torch.FloatTensor) — 序列中第一個標記(分類標記)的最後一層隱藏狀態,經過輔助預訓練任務所用層的進一步處理。例如,對於 BERT 系列模型,這會在經過線性層和 tanh 啟用函式處理後返回分類標記。線性層權重在預訓練期間根據下一個句子預測(分類)目標進行訓練。

  • hidden_states (tuple(torch.FloatTensor)可選,當傳遞 output_hidden_states=Trueconfig.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元組(如果模型有嵌入層,則為嵌入層輸出一個 + 每個層輸出一個)。

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=Trueconfig.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元組(每個層一個)。

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

Siglip2VisionModel 的 forward 方法,重寫了 __call__ 特殊方法。

儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module 例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Siglip2VisionModel

>>> model = Siglip2VisionModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled features

Siglip2ForImageClassification

class transformers.Siglip2ForImageClassification

< >

( config: Siglip2Config )

引數

  • config (Siglip2Config) — 模型配置類,包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

Siglip2 視覺編碼器,頂部帶有影像分類頭(在 patch token 的池化最終隱藏狀態之上的線性層),例如用於 ImageNet。

此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。

前向傳播

< >

( pixel_values: typing.Optional[torch.Tensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) transformers.modeling_outputs.ImageClassifierOutput or tuple(torch.FloatTensor)

引數

  • pixel_values (torch.Tensor,形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。詳情請參見 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 來處理影像)。
  • pixel_attention_mask (torch.Tensor,形狀為 (batch_size, image_size, image_size), 可選) — 用於避免在填充畫素索引上執行注意力操作的掩碼。
  • spatial_shapes (torch.LongTensor,形狀為 (batch_size, 2)) — 包含輸入影像空間維度(高度,寬度)的張量。
  • labels (torch.LongTensor,形狀為 (batch_size,), 可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1,則計算迴歸損失(均方損失);如果 config.num_labels > 1,則計算分類損失(交叉熵損失)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的 attentions
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的 hidden_states

返回

transformers.modeling_outputs.ImageClassifierOutputtuple(torch.FloatTensor)

一個 transformers.modeling_outputs.ImageClassifierOutput 或一個 torch.FloatTensor 的元組(如果傳入 return_dict=Falseconfig.return_dict=False),包含根據配置 (Siglip2Config) 和輸入而定的各種元素。

  • loss (形狀為 (1,)torch.FloatTensor可選,當提供 labels 時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。

  • logits (形狀為 (batch_size, config.num_labels)torch.FloatTensor) — 分類(如果 config.num_labels==1,則為迴歸)分數(SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=Trueconfig.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(如果模型有嵌入層,則包含嵌入層輸出,以及每個階段的輸出),形狀為 (batch_size, sequence_length, hidden_size)。模型在每個階段輸出處的隱藏狀態(也稱為特徵圖)。

  • attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=Trueconfig.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, patch_size, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

Siglip2ForImageClassification 的 forward 方法,重寫了 __call__ 特殊方法。

儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module 例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。

示例

>>> from transformers import AutoImageProcessor, Siglip2ForImageClassification
>>> import torch
>>> from PIL import Image
>>> import requests

>>> torch.manual_seed(3)
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> # note: we are loading a `Siglip2Model` from the hub here,
>>> # so the head will be randomly initialized, hence the predictions will be random if seed is not set above.
>>> image_processor = AutoImageProcessor.from_pretrained("google/siglip2-base-patch16-224")
>>> model = Siglip2ForImageClassification.from_pretrained("google/siglip2-base-patch16-224")

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the two classes
>>> predicted_class_idx = logits.argmax(-1).item()
>>> print("Predicted class:", model.config.id2label[predicted_class_idx])
Predicted class: LABEL_1
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.