SigLIP

SigLIP 是一個多模態影像-文字模型，類似於 CLIP。它使用獨立的影像和文字編碼器來生成兩種模態的表示。

與 CLIP 不同，SigLIP 在訓練期間對影像-文字對使用成對 sigmoid 損失。這種訓練損失消除了對批處理中影像和文字之間所有成對相似性的全域性檢視的需求。因此，它能夠更有效地擴充套件到更大的批次大小，同時在更小的批次大小下也能提供卓越的效能。

您可以在 SigLIP 集合中找到所有原始 SigLIP 檢查點。

單擊右側邊欄中的 SigLIP 模型，檢視更多將 SigLIP 應用於不同影像和文字任務的示例。

以下示例演示瞭如何使用 Pipeline 或 AutoModel 類生成文字與影像之間的相似度分數。

流水線

自動模型

量化透過以較低精度表示權重來減少大型模型的記憶體負擔。有關更多可用量化後端，請參閱量化概述。

以下示例使用 bitsandbytes 將權重僅量化為 int4。

import torch
import requests
from PIL import Image
from transformers import AutoProcessor, AutoModel, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(load_in_4bit=True)
model = AutoModel.from_pretrained("google/siglip-base-patch16-224", quantization_config=bnb_config, device_map="auto", attn_implementation="sdpa")
processor = AutoProcessor.from_pretrained("google/siglip-base-patch16-224")

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
candidate_labels = ["a Pallas cat", "a lion", "a Siberian tiger"]
texts = [f'This is a photo of {label}.' for label in candidate_labels]
inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt").to("cuda")

with torch.no_grad():
    outputs = model(**inputs)

logits_per_image = outputs.logits_per_image
probs = torch.sigmoid(logits_per_image)
print(f"{probs[0][0]:.1%} that image 0 is '{candidate_labels[0]}'")

注意事項

支援單節點多 GPU 設定上的 DDP 和 FSDP 訓練。但是，它不使用 torch.distributed 工具，這可能會限制批次大小的可擴充套件性。
使用獨立的 SiglipTokenizer 或 SiglipProcessor 時，請務必傳入 padding="max_length"，因為這是模型訓練時的方式。
為了獲得與 Pipeline 相同的結果，應將提示模板 "This is a photo of {label}." 傳遞給處理器。

切換 attn_implementation 引數為 "sdpa" 或 "flash_attention_2" 以使用更節省記憶體的注意力。

# pip install -U flash-attn --no-build-isolation

from transformers import SiglipModel

model = SiglipModel.from_pretrained(
    "google/siglip-so400m-patch14-384",
    attn_implementation="flash_attention_2",
    torch_dtype=torch.float16,
    device_map=device,
)

SiglipConfig

class transformers.SiglipConfig

< 來源 >

( text_config = None vision_config = None **kwargs )

引數

text_config (dict, 可選) — 用於初始化 SiglipTextConfig 的配置選項字典。
vision_config (dict, 可選) — 用於初始化 SiglipVisionConfig 的配置選項字典。
kwargs (可選) — 關鍵字引數字典。

SiglipConfig 是用於儲存 SiglipModel 配置的配置類。它用於根據指定的引數例項化 Siglip 模型，定義文字模型和視覺模型配置。使用預設值例項化配置將生成與 Siglip google/siglip-base-patch16-224 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import SiglipConfig, SiglipModel

>>> # Initializing a SiglipConfig with google/siglip-base-patch16-224 style configuration
>>> configuration = SiglipConfig()

>>> # Initializing a SiglipModel (with random weights) from the google/siglip-base-patch16-224 style configuration
>>> model = SiglipModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

>>> # We can also initialize a SiglipConfig from a SiglipTextConfig and a SiglipVisionConfig
>>> from transformers import SiglipTextConfig, SiglipVisionConfig

>>> # Initializing a SiglipText and SiglipVision configuration
>>> config_text = SiglipTextConfig()
>>> config_vision = SiglipVisionConfig()

>>> config = SiglipConfig.from_text_vision_configs(config_text, config_vision)

from_text_vision_configs

< 來源 >

( text_config: SiglipTextConfig vision_config: SiglipVisionConfig **kwargs ) → SiglipConfig

SiglipConfig

一個配置物件的例項

從 Siglip 文字模型配置和 Siglip 視覺模型配置例項化 SiglipConfig（或派生類）。

SiglipTextConfig

class transformers.SiglipTextConfig

< 來源 >

( vocab_size = 32000 hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 max_position_embeddings = 64 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 pad_token_id = 1 bos_token_id = 49406 eos_token_id = 49407 projection_size = None **kwargs )

引數

vocab_size (int, 可選, 預設為 32000) — Siglip 文字模型的詞彙表大小。定義了呼叫 SiglipModel 時傳遞的 inputs_ids 可以表示的不同 token 的數量。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層維度。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
max_position_embeddings (int, 可選, 預設為 64) — 此模型可能使用的最大序列長度。通常設定為一個較大的值以防萬一（例如 512、1024 或 2048）。
hidden_act (str 或 function, 可選, 預設為 "gelu_pytorch_tanh") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"selu" 和 "gelu_new" "quick_gelu"。
layer_norm_eps (float, 可選, 預設為 1e-06) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
pad_token_id (int, 可選, 預設為 1) — 詞彙表中的填充 token ID。
bos_token_id (int, 可選, 預設為 49406) — 詞彙表中的序列開始 token ID。
eos_token_id (int, 可選, 預設為 49407) — 詞彙表中的序列結束 token ID。
projection_size (int, 可選, 預設為 hidden_size) — 投影頭的尺寸。

這是用於儲存 SiglipTextModel 配置的配置類。它用於根據指定的引數例項化 Siglip 文字編碼器，定義模型架構。使用預設值例項化配置將生成與 Siglip google/siglip-base-patch16-224 架構的文字編碼器相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import SiglipTextConfig, SiglipTextModel

>>> # Initializing a SiglipTextConfig with google/siglip-base-patch16-224 style configuration
>>> configuration = SiglipTextConfig()

>>> # Initializing a SiglipTextModel (with random weights) from the google/siglip-base-patch16-224 style configuration
>>> model = SiglipTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

SiglipVisionConfig

class transformers.SiglipVisionConfig

< 來源 >

( hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 image_size = 224 patch_size = 16 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 **kwargs )

引數

hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層維度。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
num_channels (int, 可選, 預設為 3) — 輸入影像中的通道數量。
image_size (int, 可選, 預設為 224) — 每張影像的大小（解析度）。
patch_size (int, 可選, 預設為 16) — 每個補丁的大小（解析度）。
hidden_act (str 或 function, 可選, 預設為 "gelu_pytorch_tanh") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"selu" 和 "gelu_new" "quick_gelu"。
layer_norm_eps (float, 可選, 預設為 1e-06) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。

這是用於儲存 SiglipVisionModel 配置的配置類。它用於根據指定的引數例項化 Siglip 視覺編碼器，定義模型架構。使用預設值例項化配置將生成與 Siglip google/siglip-base-patch16-224 架構的視覺編碼器相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import SiglipVisionConfig, SiglipVisionModel

>>> # Initializing a SiglipVisionConfig with google/siglip-base-patch16-224 style configuration
>>> configuration = SiglipVisionConfig()

>>> # Initializing a SiglipVisionModel (with random weights) from the google/siglip-base-patch16-224 style configuration
>>> model = SiglipVisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

SiglipTokenizer

class transformers.SiglipTokenizer

< 來源 >

( vocab_file eos_token = '</s>' unk_token = '<unk>' pad_token = '</s>' additional_special_tokens = None sp_model_kwargs: typing.Optional[dict[str, typing.Any]] = None model_max_length = 64 do_lower_case = True **kwargs )

引數

vocab_file (str) — SentencePiece 檔案（通常具有 _*.spm_ 副檔名），其中包含例項化分詞器所需的詞彙表。
eos_token (str, 可選, 預設為 "</s>") — 序列結束符。
unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記不能轉換為 ID，而是設定為此標記。
pad_token (str, 可選, 預設為 "</s>") — 用於填充的標記，例如在對不同長度的序列進行批處理時。
additional_special_tokens (list[str], 可選) — 分詞器使用的額外特殊標記。
sp_model_kwargs (dict, 可選) — 將傳遞給 SentencePieceProcessor.__init__() 方法。 SentencePiece 的 Python 封裝器可以用於設定，其中包括：
- enable_sampling: 啟用子詞正則化。
- nbest_size: Unigram 的取樣引數。對於 BPE-Dropout 無效。
  - nbest_size = {0,1}: 不執行取樣。
  - nbest_size > 1: 從 nbest_size 結果中取樣。
  - nbest_size < 0: 假設 nbest_size 是無限的，並使用前向濾波和後向取樣演算法從所有假設（格）中取樣。
- alpha: 用於 unigram 取樣的平滑引數，以及 BPE-dropout 中合併操作的 dropout 機率。
model_max_length (int, 可選, 預設為 64) — 模型輸入的tokens最大長度。
do_lower_case (bool, 可選, 預設為 True) — 分詞時是否將輸入轉為小寫。

構造 Siglip 分詞器。基於 SentencePiece。

此分詞器繼承自 PreTrainedTokenizer，其中包含大部分主要方法。使用者應參閱此超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 將新增特殊標記的 ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。

list[int]

帶有適當特殊標記的輸入ID列表。

透過連線和新增特殊標記，從序列或序列對構建用於序列分類任務的模型輸入。序列格式如下：

單個序列：X </s>
序列對：A </s> B </s>

get_special_tokens_mask

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → list[int]

引數

token_ids_0 (list[int]) — ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。
already_has_special_tokens (bool, 可選, 預設為 False) — 標記列表是否已使用模型的特殊標記進行格式化。

list[int]

一個範圍為 [0, 1] 的整數列表：1 表示特殊標記，0 表示序列標記。

從沒有新增特殊標記的標記列表中檢索序列ID。此方法在使用分詞器prepare_for_model方法新增特殊標記時呼叫。

create_token_type_ids_from_sequences

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。

list[int]

零列表。

根據傳入的兩個序列建立掩碼，用於序列對分類任務。T5 不使用令牌型別 ID，因此返回零列表。

save_vocabulary

< 來源 >

( save_directory: str filename_prefix: typing.Optional[str] = None )

SiglipImageProcessor

class transformers.SiglipImageProcessor

< 來源 >

( do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.BICUBIC: 3> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_rgb: typing.Optional[bool] = None **kwargs )

引數

do_resize (bool, 可選, 預設為 True) — 是否將影像的（高，寬）尺寸調整為指定的 size。可在 preprocess 方法中的 do_resize 中覆蓋。
size (dict[str, int] 可選, 預設為 {"height" -- 224, "width": 224}): 調整大小後圖像的尺寸。可在 preprocess 方法中的 size 中覆蓋。
resample (PILImageResampling, 可選, 預設為 Resampling.BICUBIC) — 如果調整影像大小，則使用的重取樣濾波器。可在 preprocess 方法中的 resample 中覆蓋。
do_rescale (bool, 可選, 預設為 True) — 是否按指定的比例 rescale_factor 重新縮放影像。可在 preprocess 方法中的 do_rescale 中覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 如果重新縮放影像，則使用的縮放因子。可在 preprocess 方法中的 rescale_factor 中覆蓋。
do_normalize (bool, 可選, 預設為 True) — 是否按指定的均值和標準差對影像進行歸一化。可在 preprocess 方法中的 do_normalize 中覆蓋。
image_mean (float 或 list[float], 可選, 預設為 [0.5, 0.5, 0.5]) — 如果對影像進行歸一化，則使用的均值。這是一個浮點數或浮點數列表，其長度與影像中的通道數相同。可在 preprocess 方法中的 image_mean 引數中覆蓋。
image_std (float 或 list[float], 可選, 預設為 [0.5, 0.5, 0.5]) — 如果對影像進行歸一化，則使用的標準差。這是一個浮點數或浮點數列表，其長度與影像中的通道數相同。可在 preprocess 方法中的 image_std 引數中覆蓋。
do_convert_rgb (bool, 可選, 預設為 True) — 是否將影像轉換為 RGB。

構造 SigLIP 影像處理器。

preprocess

< 來源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample: Resampling = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None return_tensors: typing.Union[transformers.utils.generic.TensorType, str, NoneType] = None data_format: typing.Optional[transformers.image_utils.ChannelDimension] = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None do_convert_rgb: typing.Optional[bool] = None )

引數

images (ImageInput) — 要預處理的影像。期望單個或批次影像，畫素值範圍為 0 到 255。如果傳入的影像畫素值在 0 到 1 之間，請設定 do_rescale=False。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 調整大小後圖像的尺寸。
resample (int, 可選, 預設為 self.resample) — 如果調整影像大小，則使用的重取樣濾波器。可以是列舉 PILImageResampling 之一。僅在 do_resize 設定為 True 時有效。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否重新縮放影像。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 do_rescale 設定為 True，則用於重新縮放影像的縮放因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 用於歸一化的影像均值。僅在 do_normalize 設定為 True 時有效。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時有效。
return_tensors (str 或 TensorType, 可選) — 返回張量的型別。可以是以下之一：
- 未設定：返回 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf': 返回 tf.Tensor 型別的批次。
- TensorType.PYTORCH 或 'pt': 返回 torch.Tensor 型別的批次。
- TensorType.NUMPY 或 'np': 返回 np.ndarray 型別的批次。
- TensorType.JAX 或 'jax': 返回 jax.numpy.ndarray 型別的批次。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST: 影像為 (通道數, 高度, 寬度) 格式。
- "channels_last" 或 ChannelDimension.LAST: 影像為 (高度, 寬度, 通道數) 格式。
- 未設定：使用輸入影像的通道維度格式。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，則從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST: 影像為 (通道數, 高度, 寬度) 格式。
- "channels_last" 或 ChannelDimension.LAST: 影像為 (高度, 寬度, 通道數) 格式。
- "none" 或 ChannelDimension.NONE: 影像為 (高度, 寬度) 格式。
do_convert_rgb (bool, 可選, 預設為 self.do_convert_rgb) — 是否將影像轉換為 RGB。

預處理一張或一批影像。

SiglipImageProcessorFast

class transformers.SiglipImageProcessorFast

< 來源 >

( **kwargs: typing_extensions.Unpack[transformers.image_processing_utils_fast.DefaultFastImageProcessorKwargs] )

構造一個快速 Siglip 影像處理器。

preprocess

< 來源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.image_processing_utils_fast.DefaultFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>

引數

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 要預處理的影像。期望單個或批次影像，畫素值範圍為 0 到 255。如果傳入的影像畫素值在 0 到 1 之間，請設定 do_rescale=False。
do_resize (bool, 可選) — 是否調整影像大小。
size (dict[str, int], 可選) — 模型的最大輸入尺寸。
default_to_square (bool, 可選) — 調整大小後，如果大小為整數，是否預設為正方形影像。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像大小，則使用的重取樣濾波器。可以是列舉 PILImageResampling 之一。僅在 do_resize 設定為 True 時有效。
do_center_crop (bool, 可選) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], optional) — 應用 center_crop 後輸出影像的大小。
do_rescale (bool, optional) — 是否對影像進行縮放。
rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 設定為 True，則影像的縮放因子。
do_normalize (bool, optional) — 是否對影像進行標準化。
image_mean (Union[float, list[float], NoneType]) — 用於標準化的影像平均值。僅當 do_normalize 設定為 True 時生效。
image_std (Union[float, list[float], NoneType]) — 用於標準化的影像標準差。僅當 do_normalize 設定為 True 時生效。
do_convert_rgb (bool, optional) — 是否將影像轉換為 RGB 格式。
return_tensors (Union[str, ~utils.generic.TensorType, NoneType]) — 如果設定為 `pt`，則返回堆疊的張量，否則返回張量列表。
data_format (~image_utils.ChannelDimension, optional) — 僅支援 ChannelDimension.FIRST。為與慢速處理器相容而新增。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定，則從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。
device (torch.device, optional) — 處理影像的裝置。如果未設定，則從輸入影像推斷裝置。
disable_grouping (bool, optional) — 是否停用按大小對影像進行分組以單獨處理而不是批次處理。如果為 None，則如果影像位於 CPU 上則設定為 True，否則設定為 False。此選擇基於經驗觀察，詳細資訊請參見此處：https://github.com/huggingface/transformers/pull/38157

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/陣列/張量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`，以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

SiglipProcessor

class transformers.SiglipProcessor

< source >

( image_processor tokenizer )

引數

image_processor (SiglipImageProcessor) — 影像處理器是必需輸入。
tokenizer (SiglipTokenizer) — 分詞器是必需輸入。

構造一個 Siglip 處理器，它將 Siglip 影像處理器和 Siglip 分詞器封裝到一個單獨的處理器中。

SiglipProcessor 提供了 SiglipImageProcessor 和 SiglipTokenizer 的所有功能。有關更多資訊，請參閱 __call__() 和 decode()。

batch_decode

< source >

( *args **kwargs )

此方法將其所有引數轉發到 SiglipTokenizer 的 batch_decode()。有關更多資訊，請參閱此方法的文件字串。

decode

< source >

( *args **kwargs )

此方法將其所有引數轉發到 SiglipTokenizer 的 decode()。有關更多資訊，請參閱此方法的文件字串。

SiglipModel

class transformers.SiglipModel

< source >

( config: SiglipConfig )

引數

config (SiglipConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，僅載入配置。請查閱 from_pretrained() 方法以載入模型權重。

裸 Siglip 模型，輸出原始隱藏狀態，頂部沒有任何特定頭部。

此模型繼承自 PreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參閱 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None return_loss: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False ) → transformers.models.siglip.modeling_siglip.SiglipOutput or tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 避免對填充 token 索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 之間：
- 1 表示 未被掩蓋 的 token，
- 0 表示 被掩蓋 的 token。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
return_loss (bool, optional) — 是否返回對比損失。
output_attentions (bool, optional) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的 attentions。
output_hidden_states (bool, optional) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的 hidden_states。
interpolate_pos_encoding (bool, 預設為 False) — 是否插值預訓練位置編碼。

transformers.models.siglip.modeling_siglip.SiglipOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.siglip.modeling_siglip.SiglipOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），其中包含取決於配置 (SiglipConfig) 和輸入的不同元素。

loss (torch.FloatTensor，形狀為 (1,), 可選, 當 return_loss 為 True 時返回) — 影像-文字相似度的對比損失。
logits_per_image (torch.FloatTensor，形狀為 (image_batch_size, text_batch_size)) — image_embeds 和 text_embeds 之間的縮放點積分數。這表示影像-文字相似度分數。
logits_per_text (torch.FloatTensor，形狀為 (text_batch_size, image_batch_size)) — text_embeds 和 image_embeds 之間的縮放點積分數。這表示文字-影像相似度分數。
text_embeds (torch.FloatTensor，形狀為 (batch_size, output_dim) — 透過將投影層應用於 SiglipTextModel 的池化輸出而獲得的文字嵌入。
image_embeds (torch.FloatTensor，形狀為 (batch_size, output_dim) — 透過將投影層應用於 SiglipVisionModel 的池化輸出而獲得的影像嵌入。
text_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.text_model_output，預設為 None) — SiglipTextModel 的輸出。
vision_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.vision_model_output，預設為 None) — SiglipVisionModel 的輸出。

SiglipModel 的前向方法，覆蓋了 __call__ 特殊方法。

儘管前向傳遞的配方需要在此函式中定義，但在此之後應呼叫 Module 例項，而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則默默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> texts = ["a photo of 2 cats", "a photo of 2 dogs"]
>>> # important: we pass `padding=max_length` since the model was trained with this
>>> inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> logits_per_image = outputs.logits_per_image
>>> probs = torch.sigmoid(logits_per_image) # these are the probabilities
>>> print(f"{probs[0][0]:.1%} that image 0 is '{texts[0]}'")
31.9% that image 0 is 'a photo of 2 cats'

get_text_features

< source >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → text_features (torch.FloatTensor，形狀為 (batch_size, output_dim)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 避免對填充 token 索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 之間：
- 1 表示 未被掩蓋 的 token，
- 0 表示 被掩蓋 的 token。
什麼是注意力掩碼？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的 hidden_states。

text_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 SiglipTextModel 的池化輸出而獲得的文字嵌入。

示例

>>> from transformers import AutoTokenizer, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip-base-patch16-224")

>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")
>>> with torch.no_grad():
...     text_features = model.get_text_features(**inputs)

get_image_features

< source >

( pixel_values: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False ) → image_features (torch.FloatTensor，形狀為 (batch_size, output_dim)

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的 hidden_states。
interpolate_pos_encoding (bool, 預設為 False) — 是否插值預訓練位置編碼。

image_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 SiglipVisionModel 的池化輸出而獲得的影像嵌入。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch

>>> model = AutoModel.from_pretrained("google/siglip-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     image_features = model.get_image_features(**inputs)

SiglipTextModel

class transformers.SiglipTextModel

< source >

( config: SiglipTextConfig )

引數

config (SiglipTextConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，僅載入配置。請查閱 from_pretrained() 方法以載入模型權重。

不帶任何頭部或投影的 SigLIP 文字模型。

此模型繼承自 PreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參閱 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

forward

< source >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 避免對填充 token 索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 之間：
- 1 表示 未被掩蓋 的 token，
- 0 表示 被掩蓋 的 token。
什麼是注意力掩碼？
position_ids (torch.Tensor, 形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列詞元在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的 hidden_states。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（SiglipConfig）和輸入而定的各種元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor, 形狀為 (batch_size, hidden_size)) — 序列中第一個詞元（分類詞元）經過用於輔助預訓練任務的層進一步處理後的最後一層隱藏狀態。例如，對於 BERT 系列模型，這會返回分類詞元經過線性層和 tanh 啟用函式處理後的結果。線性層權重在預訓練期間根據下一句預測（分類）目標進行訓練。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則包含一個用於嵌入層輸出的張量，加上一個用於每個層輸出的張量），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

SiglipTextModel 的 forward 方法，重寫了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, SiglipTextModel

>>> model = SiglipTextModel.from_pretrained("google/siglip-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip-base-patch16-224")

>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states

SiglipVisionModel

class transformers.SiglipVisionModel

< source >

( config: SiglipVisionConfig )

引數

config (SiglipVisionConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

SigLIP 的視覺模型，沒有任何頭部或投影層。

此模型繼承自 PreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參閱 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

forward

< source >

( pixel_values output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

pixel_values (`形狀為 `(batch_size, num_channels, image_size, image_size)` 的張量) -- 對應於輸入影像的張量。畫素值可以使用 `{image_processor_class}` 獲得。有關詳細資訊，請參閱 `{image_processor_class}.__call__` （`{processor_class}` 使用 `{image_processor_class}` 進行影像處理）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的 hidden_states。
interpolate_pos_encoding (bool, 預設為 False) — 是否對預訓練的位置編碼進行插值。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor, 形狀為 (batch_size, hidden_size)) — 序列中第一個詞元（分類詞元）經過用於輔助預訓練任務的層進一步處理後的最後一層隱藏狀態。例如，對於 BERT 系列模型，這會返回分類詞元經過線性層和 tanh 啟用函式處理後的結果。線性層權重在預訓練期間根據下一句預測（分類）目標進行訓練。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則包含一個用於嵌入層輸出的張量，加上一個用於每個層輸出的張量），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

SiglipVisionModel 的 forward 方法，重寫了 __call__ 特殊方法。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, SiglipVisionModel

>>> model = SiglipVisionModel.from_pretrained("google/siglip-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip-base-patch16-224")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled features

SiglipForImageClassification

class transformers.SiglipForImageClassification

< source >

( config: SiglipConfig )

引數

config (SiglipConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

SigLIP 視覺編碼器，頂部帶有影像分類頭（對補丁詞元的池化最終隱藏狀態進行線性層處理），例如用於 ImageNet。

此模型繼承自 PreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參閱 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

forward

< source >

( pixel_values: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False ) → transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.Tensor 形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲得。有關詳細資訊，請參閱 {image_processor_class}.__call__ （{processor_class} 使用 {image_processor_class} 進行影像處理）。
labels (torch.LongTensor 形狀為 (batch_size,), 可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的 hidden_states。
interpolate_pos_encoding (bool, 預設為 False) — 是否對預訓練的位置編碼進行插值。

transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.ImageClassifierOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（SiglipConfig）和輸入而定的各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則包含一個用於嵌入層輸出的張量，加上一個用於每個階段輸出的張量），形狀為 (batch_size, sequence_length, hidden_size)。模型在每個階段輸出的隱藏狀態（也稱為特徵圖）。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, patch_size, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

SiglipForImageClassification 的 forward 方法，重寫了 __call__ 特殊方法。

示例

>>> from transformers import AutoImageProcessor, SiglipForImageClassification
>>> import torch
>>> from PIL import Image
>>> import requests

>>> torch.manual_seed(3)
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> # note: we are loading a `SiglipModel` from the hub here,
>>> # so the head will be randomly initialized, hence the predictions will be random if seed is not set above.
>>> image_processor = AutoImageProcessor.from_pretrained("google/siglip-base-patch16-224")
>>> model = SiglipForImageClassification.from_pretrained("google/siglip-base-patch16-224")

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the two classes
>>> predicted_class_idx = logits.argmax(-1).item()
>>> print("Predicted class:", model.config.id2label[predicted_class_idx])
Predicted class: LABEL_1

< > 在 GitHub 上更新

Transformers

SigLIP

注意事項

SiglipConfig

class transformers.SiglipConfig

from_text_vision_configs

SiglipTextConfig

class transformers.SiglipTextConfig

SiglipVisionConfig

class transformers.SiglipVisionConfig

SiglipTokenizer

class transformers.SiglipTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

SiglipImageProcessor

class transformers.SiglipImageProcessor

preprocess

SiglipImageProcessorFast

class transformers.SiglipImageProcessorFast

preprocess

SiglipProcessor

class transformers.SiglipProcessor

batch_decode

decode

SiglipModel

class transformers.SiglipModel

forward

get_text_features

get_image_features

SiglipTextModel

class transformers.SiglipTextModel

forward

SiglipVisionModel

class transformers.SiglipVisionModel

forward

SiglipForImageClassification

class transformers.SiglipForImageClassification

forward