Transformers 文件
SigLIP2
並獲得增強的文件體驗
開始使用
SigLIP2
概述
SigLIP2 是一系列基於 SigLIP 訓練方法的、多語言的視覺-語言編碼器。它包括基於解碼器的預訓練、自蒸餾和掩碼預測,以改進密集預測任務(如分割、深度估計等)。該模型提供兩種變體:
- NaFlex 支援不同的解析度並保持原始影像寬高比
- FixRes 支援固定解析度並與 SigLIP 向後相容
所有原始 SigLIP2 檢查點均可在 SigLIP2 集合中找到。
點選右側邊欄的 SigLIP2 模型,可檢視如何將 SigLIP2 應用於不同影像和文字任務的更多示例。
以下示例展示了使用 Pipeline 或 AutoModel 類進行零樣本分類。
import torch
from transformers import pipeline
image = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
candidate_labels = ["a Pallas cat", "a lion", "a Siberian tiger"]
pipeline = pipeline(task="zero-shot-image-classification", model="google/siglip2-base-patch16-224", device=0, torch_dtype=torch.bfloat16)
pipeline(image, candidate_labels=candidate_labels)
量化透過以較低精度表示權重來減少大型模型的記憶體負擔。有關更多可用量化後端,請參閱量化概述。
以下示例使用 bitsandbytes 將權重僅量化為 int4。
import torch
import requests
from PIL import Image
from transformers import AutoProcessor, AutoModel, BitsAndBytesConfig
bnb_config = BitsAndBytesConfig(load_in_4bit=True)
model = AutoModel.from_pretrained("google/siglip2-large-patch16-512", quantization_config=bnb_config, device_map="auto", attn_implementation="sdpa")
processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
candidate_labels = ["a Pallas cat", "a lion", "a Siberian tiger"]
# follows the pipeline prompt template to get same results
texts = [f'This is a photo of {label}.' for label in candidate_labels]
# IMPORTANT: we pass `padding=max_length` and `max_length=64` since the model was trained with this
inputs = processor(text=texts, images=image, padding="max_length", max_length=64, return_tensors="pt").to("cuda")
with torch.no_grad():
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = torch.sigmoid(logits_per_image)
print(f"{probs[0][0]:.1%} that image 0 is '{candidate_labels[0]}'")
注意事項
訓練支援單節點多 GPU 設定上的 DDP 和 FSDP。但是,它不使用 torch.distributed 工具,這可能會限制批處理大小的可擴充套件性。
使用獨立的 GemmaTokenizerFast 時,請確保傳入
padding="max_length"
和max_length=64
,因為模型就是這樣訓練的。模型是使用小寫文字訓練的,因此請確保您的文字標籤以相同的方式進行預處理。
要獲得與 Pipeline 相同的結果,應將提示模板
"This is a photo of {label}."
傳遞給處理器。NaFlex 變體以適當的解析度處理不同型別的影像(例如,使用更大的解析度處理文件影像),同時最大限度地減少某些推理任務(如 OCR)中的寬高比失真影響。
NaFlex 會調整輸入影像的大小,使其高度和寬度在調整大小後是補丁大小的倍數。它儘可能保持寬高比失真低,並生成最多達到所需目標序列長度(
max_num_patches
)的序列長度。調整大小後,影像將分成一系列補丁,並新增帶有填充資訊的掩碼。將
attn_implementation
引數切換為"sdpa"
或"flash_attention_2"
以使用記憶體效率更高的注意力機制。# pip install -U flash-attn --no-build-isolation from transformers import SiglipModel model = SiglipModel.from_pretrained( "google/siglip2-so400m-patch14-384", attn_implementation="flash_attention_2", torch_dtype=torch.float16, device_map=device, )
Siglip2Config
class transformers.Siglip2Config
< source >( text_config = None vision_config = None **kwargs )
引數
- text_config (
dict
, optional) — 用於初始化 Siglip2TextConfig 的配置選項字典。 - vision_config (
dict
, optional) — 用於初始化 Siglip2VisionConfig 的配置選項字典。 - kwargs (optional) — 關鍵字引數字典。
Siglip2Config 是用於儲存 Siglip2Model 配置的配置類。它用於根據指定引數例項化 Siglip2 模型,定義文字模型和視覺模型配置。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-224 架構的配置。
配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。
示例
>>> from transformers import Siglip2Config, Siglip2Model
>>> # Initializing a Siglip2Config with google/siglip2-base-patch16-224 style configuration
>>> configuration = Siglip2Config()
>>> # Initializing a Siglip2Model (with random weights) from the google/siglip2-base-patch16-224 style configuration
>>> model = Siglip2Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
>>> # We can also initialize a Siglip2Config from a Siglip2TextConfig and a Siglip2VisionConfig
>>> from transformers import Siglip2TextConfig, Siglip2VisionConfig
>>> # Initializing a Siglip2Text and Siglip2Vision configuration
>>> config_text = Siglip2TextConfig()
>>> config_vision = Siglip2VisionConfig()
>>> config = Siglip2Config.from_text_vision_configs(config_text, config_vision)
from_text_vision_configs
< source >( text_config: Siglip2TextConfig vision_config: Siglip2VisionConfig **kwargs ) → Siglip2Config
從 siglip2 文字模型配置和 siglip2 視覺模型配置例項化 Siglip2Config(或派生類)。
Siglip2TextConfig
class transformers.Siglip2TextConfig
< source >( vocab_size = 32000 hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 max_position_embeddings = 64 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 pad_token_id = 1 bos_token_id = 49406 eos_token_id = 49407 projection_size = None **kwargs )
引數
- vocab_size (
int
, optional, defaults to 32000) — Siglip2 文字模型的詞彙表大小。定義了呼叫 Siglip2Model 時傳入的inputs_ids
可以表示的不同 token 的數量。 - hidden_size (
int
, optional, defaults to 768) — 編碼器層和池化層的維度。 - intermediate_size (
int
, optional, defaults to 3072) — Transformer 編碼器中“中間”(即前饋)層的維度。 - num_hidden_layers (
int
, optional, defaults to 12) — Transformer 編碼器中的隱藏層數量。 - num_attention_heads (
int
, optional, defaults to 12) — Transformer 編碼器中每個注意力層的注意力頭數量。 - max_position_embeddings (
int
, optional, defaults to 64) — 此模型可能使用的最大序列長度。通常為了以防萬一會將其設定為一個大值(例如 512 或 1024 或 2048)。 - hidden_act (
str
orfunction
, optional, defaults to"gelu_pytorch_tanh"
) — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,則支援"gelu"
、"relu"
、"selu"
和"gelu_new"
"quick_gelu"
。 - layer_norm_eps (
float
, optional, defaults to 1e-06) — 層歸一化層使用的 epsilon 值。 - attention_dropout (
float
, optional, defaults to 0.0) — 注意力機率的 dropout 比率。 - pad_token_id (
int
, optional, defaults to 1) — 詞彙表中填充 token 的 ID。 - bos_token_id (
int
, optional, defaults to 49406) — 詞彙表中序列開始 token 的 ID。 - eos_token_id (
int
, optional, defaults to 49407) — 詞彙表中序列結束 token 的 ID。 - projection_size (
int
, optional, defaults tohidden_size
) — 投影頭的大小。
這是用於儲存 Siglip2TextModel 配置的配置類。它用於根據指定引數例項化 Siglip2 文字編碼器,定義模型架構。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-224 架構文字編碼器的配置。
配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。
示例
>>> from transformers import Siglip2TextConfig, Siglip2TextModel
>>> # Initializing a Siglip2TextConfig with google/siglip2-base-patch16-224 style configuration
>>> configuration = Siglip2TextConfig()
>>> # Initializing a Siglip2TextModel (with random weights) from the google/siglip2-base-patch16-224 style configuration
>>> model = Siglip2TextModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
Siglip2VisionConfig
class transformers.Siglip2VisionConfig
< source >( hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 num_patches = 256 patch_size = 16 hidden_act = 'gelu_pytorch_tanh' layer_norm_eps = 1e-06 attention_dropout = 0.0 **kwargs )
引數
- hidden_size (
int
, optional, defaults to 768) — 編碼器層和池化層的維度。 - intermediate_size (
int
, optional, defaults to 3072) — Transformer 編碼器中“中間”(即前饋)層的維度。 - num_hidden_layers (
int
, optional, defaults to 12) — Transformer 編碼器中的隱藏層數量。 - num_attention_heads (
int
, optional, defaults to 12) — Transformer 編碼器中每個注意力層的注意力頭數量。 - num_channels (
int
, optional, defaults to 3) — 輸入影像中的通道數量。 - num_patches (
int
, optional, defaults to 256) — 影像中補丁的數量,大小為(patch_size
,patch_size
)。影像將被調整大小以填充最大數量的補丁,並保持寬高比。如果結果補丁數量較少,則影像將在“補丁”維度上進行填充。 - patch_size (
int
, optional, defaults to 16) — 每個補丁的大小(解析度)。 - hidden_act (
str
orfunction
, optional, defaults to"gelu_pytorch_tanh"
) — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,則支援"gelu"
、"relu"
、"selu"
和"gelu_new"
"quick_gelu"
。 - layer_norm_eps (
float
, optional, defaults to 1e-06) — 層歸一化層使用的 epsilon 值。 - attention_dropout (
float
, optional, defaults to 0.0) — 注意力機率的 dropout 比率。
這是用於儲存 Siglip2VisionModel 配置的配置類。它用於根據指定引數例項化 Siglip2 視覺編碼器,定義模型架構。使用預設值例項化配置將生成類似於 Siglip2 google/siglip2-base-patch16-naflex 架構視覺編碼器的配置。
配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。
示例
>>> from transformers import Siglip2VisionConfig, Siglip2VisionModel
>>> # Initializing a Siglip2VisionConfig with google/siglip2-base-patch16-naflex style configuration
>>> configuration = Siglip2VisionConfig()
>>> # Initializing a Siglip2VisionModel (with random weights) from the google/siglip2-base-patch16-naflex style configuration
>>> model = Siglip2VisionModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
Siglip2ImageProcessor
class transformers.Siglip2ImageProcessor
< source >( do_resize: bool = True resample: PILImageResampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: float = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_rgb: typing.Optional[bool] = None patch_size: int = 16 max_num_patches: int = 256 **kwargs )
引數
- do_resize (
bool
, 可選, 預設為True
) — 是否根據給定的patch_size
調整影像尺寸以適應max_num_patches
。可在preprocess
方法中的do_resize
引數覆蓋。 - resample (
PILImageResampling
, 可選, 預設為Resampling.BILINEAR
) — 如果調整影像尺寸,要使用的重取樣濾鏡。可在preprocess
方法中的resample
引數覆蓋。 - do_rescale (
bool
, 可選, 預設為True
) — 是否按指定的比例因子rescale_factor
縮放影像。可在preprocess
方法中的do_rescale
引數覆蓋。 - rescale_factor (
int
或float
, 可選, 預設為1/255
) — 如果縮放影像,要使用的比例因子。可在preprocess
方法中的rescale_factor
引數覆蓋。 - do_normalize (
bool
, 可選, 預設為True
) — 是否按指定的均值和標準差對影像進行歸一化。可在preprocess
方法中的do_normalize
引數覆蓋。 - image_mean (
float
或list[float]
, 可選, 預設為[0.5, 0.5, 0.5]
) — 如果對影像進行歸一化,要使用的均值。這是一個浮點數或浮點數列表,長度與影像中的通道數相同。可在preprocess
方法中的image_mean
引數覆蓋。 - image_std (
float
或list[float]
, 可選, 預設為[0.5, 0.5, 0.5]
) — 如果對影像進行歸一化,要使用的標準差。這是一個浮點數或浮點數列表,長度與影像中的通道數相同。可在preprocess
方法中的image_std
引數覆蓋。可在preprocess
方法中的image_std
引數覆蓋。 - do_convert_rgb (
bool
, 可選, 預設為True
) — 是否將影像轉換為 RGB。 - patch_size (
int
, 可選, 預設為 16) — 影像將被分割成每個補丁的大小(解析度)。 - max_num_patches (
int
, 可選, 預設為 256) — 影像將被調整大小,使其最多包含此數量的補丁,然後在“補丁”維度上進行填充以精確匹配此數量。
構造 SigLIP2 影像處理器。
預處理
< 源 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None resample: typing.Optional[ForwardRef('PILImageResampling')] = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None do_convert_rgb: typing.Optional[bool] = None patch_size: typing.Optional[int] = None max_num_patches: typing.Optional[int] = None )
引數
- images (
ImageInput
) — 要預處理的影像。期望畫素值範圍為 0 到 255 的單張或批次影像。如果傳入畫素值在 0 到 1 之間的影像,請設定do_rescale=False
。 - do_resize (
bool
, 可選, 預設為self.do_resize
) — 是否調整影像尺寸。 - size (
dict[str, int]
, 可選, 預設為self.size
) — 調整大小後的影像尺寸。 - resample (
int
, 可選, 預設為self.resample
) — 如果調整影像尺寸,要使用的重取樣濾鏡。可以是列舉型別PILImageResampling
之一。僅在do_resize
設定為True
時有效。 - do_rescale (
bool
, 可選, 預設為self.do_rescale
) — 是否縮放影像。 - rescale_factor (
float
, 可選, 預設為self.rescale_factor
) — 如果do_rescale
設定為True
,用於縮放影像的比例因子。 - do_normalize (
bool
, 可選, 預設為self.do_normalize
) — 是否對影像進行歸一化。 - image_mean (
float
或list[float]
, 可選, 預設為self.image_mean
) — 用於歸一化的影像均值。僅在do_normalize
設定為True
時有效。 - image_std (
float
或list[float]
, 可選, 預設為self.image_std
) — 用於歸一化的影像標準差。僅在do_normalize
設定為True
時有效。 - return_tensors (
str
或TensorType
, 可選) — 返回張量的型別。可以是以下之一:- 未設定:返回
np.ndarray
列表。 TensorType.TENSORFLOW
或'tf'
:返回型別為tf.Tensor
的批次。TensorType.PYTORCH
或'pt'
:返回型別為torch.Tensor
的批次。TensorType.NUMPY
或'np'
:返回型別為np.ndarray
的批次。TensorType.JAX
或'jax'
:返回型別為jax.numpy.ndarray
的批次。
- 未設定:返回
- input_data_format (
ChannelDimension
或str
, 可選) — 輸入影像的通道維度格式。如果未設定,通道維度格式將從輸入影像推斷。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:影像格式為 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:影像格式為 (height, width, num_channels)。"none"
或ChannelDimension.NONE
:影像格式為 (height, width)。
- do_convert_rgb (
bool
, 可選, 預設為self.do_convert_rgb
) — 是否將影像轉換為 RGB。 - patch_size (
int
, 可選, 預設為self.patch_size
) — 用於處理的補丁大小,與模型中使用的補丁大小相同。 - max_num_patches (
int
, 可選, 預設為self.max_num_patches
) — 每張影像的最大補丁數,影像將被調整大小以最多包含此數量的補丁。
預處理一張或一批影像。
Siglip2ImageProcessorFast
class transformers.Siglip2ImageProcessorFast
< 源 >( **kwargs: typing_extensions.Unpack[transformers.models.siglip2.image_processing_siglip2_fast.Siglip2FastImageProcessorKwargs] )
構造一個快速 Siglip2 影像處理器。
預處理
< 源 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.siglip2.image_processing_siglip2_fast.Siglip2FastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>
引數
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]
) — 要預處理的影像。期望畫素值範圍為 0 到 255 的單張或批次影像。如果傳入畫素值在 0 到 1 之間的影像,請設定do_rescale=False
。 - do_resize (
bool
, 可選) — 是否調整影像尺寸。 - size (
dict[str, int]
, 可選) — 描述模型的最大輸入維度。 - default_to_square (
bool
, 可選) — 調整大小後,如果尺寸為整數,是否預設為正方形影像。 - resample (
Union[PILImageResampling, F.InterpolationMode, NoneType]
) — 如果調整影像尺寸,要使用的重取樣濾鏡。可以是列舉型別PILImageResampling
之一。僅在do_resize
設定為True
時有效。 - do_center_crop (
bool
, 可選) — 是否對影像進行中心裁剪。 - crop_size (
dict[str, int]
, 可選) — 應用center_crop
後輸出影像的尺寸。 - do_rescale (
bool
, 可選) — 是否縮放影像。 - rescale_factor (
Union[int, float, NoneType]
) — 如果do_rescale
設定為True
,用於縮放影像的比例因子。 - do_normalize (
bool
, 可選) — 是否對影像進行歸一化。 - image_mean (
Union[float, list[float], NoneType]
) — 用於歸一化的影像均值。僅在do_normalize
設定為True
時有效。 - image_std (
Union[float, list[float], NoneType]
) — 用於歸一化的影像標準差。僅在do_normalize
設定為True
時有效。 - do_convert_rgb (
bool
, 可選) — 是否將影像轉換為 RGB。 - return_tensors (
str
或~utils.generic.TensorType
, 可選) — 如果設定為 `pt`,則返回堆疊張量,否則返回張量列表。 - data_format (
~image_utils.ChannelDimension
, 可選) — 僅支援ChannelDimension.FIRST
。為與慢速處理器相容而新增。 - input_data_format (
Union[str, ~image_utils.ChannelDimension, NoneType]
) — 輸入影像的通道維度格式。如果未設定,通道維度格式將從輸入影像推斷。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:影像格式為 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:影像格式為 (height, width, num_channels)。"none"
或ChannelDimension.NONE
:影像格式為 (height, width)。
- device (
torch.device
, 可選) — 處理影像的裝置。如果未設定,裝置將從輸入影像推斷。 - disable_grouping (
bool
, 可選) — 是否停用影像按大小分組以單獨處理而不是批次處理。如果為 None,則如果影像在 CPU 上,則設定為 True,否則設定為 False。此選擇基於經驗觀察,詳情如下:https://github.com/huggingface/transformers/pull/38157 - patch_size (
int
, 可選, 預設為 16) — 影像將分割成的每個補丁的大小(解析度)。 - max_num_patches (
int
, 可選, 預設為 256) — 影像將被調整大小,使其最多包含此數量的補丁,然後在“補丁”維度上進行填充以精確匹配此數量。
返回
<class 'transformers.image_processing_base.BatchFeature'>
- data (
dict
) — 由 call 方法返回的列表/陣列/張量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType]
, 可選) — 您可以在此處提供一個`tensor_type`,以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。
Siglip2Processor
class transformers.Siglip2Processor
< source >( image_processor tokenizer )
引數
- image_processor (Siglip2ImageProcessor) — 影像處理器是必需的輸入。
- tokenizer (GemmaTokenizerFast) — 分詞器是必需的輸入。
構建一個 Siglip2 處理器,它將 Siglip2 影像處理器和 Gemma 分詞器封裝到一個處理器中。
Siglip2Processor 提供 Siglip2ImageProcessor 和 GemmaTokenizerFast 的所有功能。有關更多資訊,請參閱 __call__()
和 decode()。
此方法將其所有引數轉發給 Siglip2Tokenizer 的 batch_decode()。有關更多資訊,請參閱此方法的文件字串。
此方法將其所有引數轉發給 Siglip2Tokenizer 的 decode()。有關更多資訊,請參閱此方法的文件字串。
Siglip2Model
class transformers.Siglip2Model
< source >( config: Siglip2Config )
引數
- config (Siglip2Config) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重,只會載入配置。檢視 from_pretrained() 方法以載入模型權重。
不帶任何特定頭部輸出原始隱藏狀態的裸 Siglip2 模型。
此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。
前向傳播
< source >( input_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None return_loss: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.models.siglip2.modeling_siglip2.Siglip2Output
或 tuple(torch.FloatTensor)
引數
- input_ids (形狀為
(batch_size, sequence_length)
的torch.LongTensor
,可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- pixel_values (形狀為
(batch_size, num_channels, image_size, image_size)
的torch.FloatTensor
,可選) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_attention_mask (形狀為
(batch_size, image_size, image_size)
的torch.Tensor
,可選) — 用於避免對填充畫素索引執行注意力操作的掩碼。 - spatial_shapes (形狀為
(batch_size, 2)
的torch.LongTensor
) — 包含輸入影像空間尺寸(高度、寬度)的張量。 - attention_mask (形狀為
(batch_size, sequence_length)
的torch.Tensor
,可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在[0, 1]
中:- 1 表示未被掩蓋的標記,
- 0 表示被掩蓋的標記。
- position_ids (形狀為
(batch_size, sequence_length)
的torch.LongTensor
,可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為[0, config.n_positions - 1]
。 - return_loss (
bool
,可選) — 是否返回對比損失。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。
返回
transformers.models.siglip2.modeling_siglip2.Siglip2Output
或 tuple(torch.FloatTensor)
一個 transformers.models.siglip2.modeling_siglip2.Siglip2Output
或一個 torch.FloatTensor
元組(如果傳遞 return_dict=False
或當 config.return_dict=False
時),包含根據配置(Siglip2Config)和輸入的不同元素。
- loss (
torch.FloatTensor
,形狀為(1,)
, 可選, 當return_loss
為True
時返回) — 影像-文字相似度的對比損失。 - logits_per_image (形狀為
(image_batch_size, text_batch_size)
的torch.FloatTensor
) —image_embeds
和text_embeds
之間的縮放點積分數。這表示影像-文字相似性分數。 - logits_per_text (形狀為
(text_batch_size, image_batch_size)
的torch.FloatTensor
) —text_embeds
和image_embeds
之間的縮放點積分數。這表示文字-影像相似性分數。 - text_embeds (形狀為
(batch_size, output_dim
) 的torch.FloatTensor
) — 透過將投影層應用於 Siglip2TextModel 的池化輸出獲得的文字嵌入。 - image_embeds (形狀為
(batch_size, output_dim
) 的torch.FloatTensor
) — 透過將投影層應用於 Siglip2VisionModel 的池化輸出獲得的影像嵌入。 - text_model_output (
<class '~modeling_outputs.BaseModelOutputWithPooling'>.text_model_output
,預設為None
) — Siglip2TextModel 的輸出。 - vision_model_output (
<class '~modeling_outputs.BaseModelOutputWithPooling'>.vision_model_output
,預設為None
) — Siglip2VisionModel 的輸出。
Siglip2Model 前向傳播方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch
>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["a photo of 2 cats", "a photo of 2 dogs"]
>>> # important: we pass `padding=max_length` since the model was trained with this
>>> inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image
>>> probs = torch.sigmoid(logits_per_image) # these are the probabilities
>>> print(f"{probs[0][0]:.1%} that image 0 is '{texts[0]}'")
31.9% that image 0 is 'a photo of 2 cats'
獲取文字特徵
< source >( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → text_features (形狀為 (batch_size, output_dim
) 的 torch.FloatTensor
)
引數
- input_ids (形狀為
(batch_size, sequence_length)
的torch.Tensor
,可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形狀為
(batch_size, sequence_length)
的torch.Tensor
,可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在[0, 1]
中:- 1 表示未被掩蓋的標記,
- 0 表示被掩蓋的標記。
- position_ids (形狀為
(batch_size, sequence_length)
的torch.Tensor
,可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為[0, config.n_positions - 1]
。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。
返回
text_features (torch.FloatTensor
, 形狀為 (batch_size, output_dim
)
透過將投影層應用於 Siglip2TextModel 的池化輸出獲得的文字嵌入。
示例
>>> from transformers import AutoTokenizer, AutoModel
>>> import torch
>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip2-base-patch16-224")
>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")
>>> with torch.no_grad():
... text_features = model.get_text_features(**inputs)
獲取影像特徵
< source >( pixel_values: typing.Optional[torch.FloatTensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → image_features (形狀為 (batch_size, output_dim
) 的 torch.FloatTensor
)
引數
- pixel_values (形狀為
(batch_size, num_channels, image_size, image_size)
的torch.FloatTensor
,可選) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。有關詳細資訊,請參閱{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
處理影像)。 - pixel_attention_mask (形狀為
(batch_size, image_size, image_size)
的torch.Tensor
,可選) — 用於避免對填充畫素索引執行注意力操作的掩碼。 - spatial_shapes (形狀為
(batch_size, 2)
的torch.LongTensor
) — 包含輸入影像空間尺寸(高度、寬度)的張量。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。
返回
image_features (torch.FloatTensor
, 形狀為 (batch_size, output_dim
)
透過將投影層應用於 Siglip2VisionModel 的池化輸出獲得的影像嵌入。
示例
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, AutoModel
>>> import torch
>>> model = AutoModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")
>>> with torch.no_grad():
... image_features = model.get_image_features(**inputs)
Siglip2TextModel
class transformers.Siglip2TextModel
< source >( config: Siglip2TextConfig )
引數
- config (Siglip2TextConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重,只會載入配置。檢視 from_pretrained() 方法以載入模型權重。
Siglip2 的文字模型,不帶任何頭部或投影。
此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。
前向傳播
< source >( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
引數
- input_ids (形狀為
(batch_size, sequence_length)
的torch.Tensor
,可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形狀為
(batch_size, sequence_length)
的torch.Tensor
,可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在[0, 1]
中:- 1 表示未被掩蓋的標記,
- 0 表示被掩蓋的標記。
- position_ids (形狀為
(batch_size, sequence_length)
的torch.Tensor
,可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為[0, config.n_positions - 1]
。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor
元組(如果傳遞 return_dict=False
或當 config.return_dict=False
時),包含根據配置(Siglip2Config)和輸入的不同元素。
-
last_hidden_state (
torch.FloatTensor
, 形狀為(batch_size, sequence_length, hidden_size)
) — 模型最後一層輸出的隱藏狀態序列。 -
pooler_output (形狀為
(batch_size, hidden_size)
的torch.FloatTensor
) — 序列中第一個標記(分類標記)的最後一層隱藏狀態,經過輔助預訓練任務所用層的進一步處理。例如,對於 BERT 系列模型,這會在經過線性層和 tanh 啟用函式處理後返回分類標記。線性層權重在預訓練期間根據下一個句子預測(分類)目標進行訓練。 -
hidden_states (
tuple(torch.FloatTensor)
,可選,當傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元組(如果模型有嵌入層,則為嵌入層輸出一個 + 每個層輸出一個)。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
,可選,當傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
Siglip2TextModel 前向傳播方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, Siglip2TextModel
>>> model = Siglip2TextModel.from_pretrained("google/siglip2-base-patch16-224")
>>> tokenizer = AutoTokenizer.from_pretrained("google/siglip2-base-patch16-224")
>>> # important: make sure to set padding="max_length" as that's how the model was trained
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding="max_length", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output # pooled (EOS token) states
Siglip2VisionModel
class transformers.Siglip2VisionModel
< source >( config: Siglip2VisionConfig )
引數
- config (Siglip2VisionConfig) — 模型配置類,包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。
Siglip2 的視覺模型,頂部沒有任何頭部或投影層。
此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。
前向傳播
< source >( pixel_values: FloatTensor pixel_attention_mask: Tensor spatial_shapes: LongTensor output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling or tuple(torch.FloatTensor)
引數
- pixel_values (
torch.FloatTensor
,形狀為(batch_size, num_channels, image_size, image_size)
) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。詳情請參見{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
來處理影像)。 - pixel_attention_mask (
torch.Tensor
,形狀為(batch_size, image_size, image_size)
, 可選) — 用於避免在填充畫素索引上執行注意力操作的掩碼。 - spatial_shapes (
torch.LongTensor
,形狀為(batch_size, 2)
) — 包含輸入影像空間維度(高度,寬度)的張量。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的hidden_states
。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor
元組(如果傳遞 return_dict=False
或當 config.return_dict=False
時),包含根據配置(Siglip2Config)和輸入的不同元素。
-
last_hidden_state (
torch.FloatTensor
, 形狀為(batch_size, sequence_length, hidden_size)
) — 模型最後一層輸出的隱藏狀態序列。 -
pooler_output (形狀為
(batch_size, hidden_size)
的torch.FloatTensor
) — 序列中第一個標記(分類標記)的最後一層隱藏狀態,經過輔助預訓練任務所用層的進一步處理。例如,對於 BERT 系列模型,這會在經過線性層和 tanh 啟用函式處理後返回分類標記。線性層權重在預訓練期間根據下一個句子預測(分類)目標進行訓練。 -
hidden_states (
tuple(torch.FloatTensor)
,可選,當傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元組(如果模型有嵌入層,則為嵌入層輸出一個 + 每個層輸出一個)。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
,可選,當傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
Siglip2VisionModel 的 forward 方法,重寫了 __call__
特殊方法。
儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Siglip2VisionModel
>>> model = Siglip2VisionModel.from_pretrained("google/siglip2-base-patch16-224")
>>> processor = AutoProcessor.from_pretrained("google/siglip2-base-patch16-224")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output # pooled features
Siglip2ForImageClassification
class transformers.Siglip2ForImageClassification
< source >( config: Siglip2Config )
引數
- config (Siglip2Config) — 模型配置類,包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。
Siglip2 視覺編碼器,頂部帶有影像分類頭(在 patch token 的池化最終隱藏狀態之上的線性層),例如用於 ImageNet。
此模型繼承自 PreTrainedModel。檢視超類文件,瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件,瞭解所有與一般使用和行為相關的事項。
前向傳播
< source >( pixel_values: typing.Optional[torch.Tensor] = None pixel_attention_mask: typing.Optional[torch.Tensor] = None spatial_shapes: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutput or tuple(torch.FloatTensor)
引數
- pixel_values (
torch.Tensor
,形狀為(batch_size, num_channels, image_size, image_size)
, 可選) — 對應於輸入影像的張量。畫素值可以使用{image_processor_class}
獲取。詳情請參見{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
來處理影像)。 - pixel_attention_mask (
torch.Tensor
,形狀為(batch_size, image_size, image_size)
, 可選) — 用於避免在填充畫素索引上執行注意力操作的掩碼。 - spatial_shapes (
torch.LongTensor
,形狀為(batch_size, 2)
) — 包含輸入影像空間維度(高度,寬度)的張量。 - labels (
torch.LongTensor
,形狀為(batch_size,)
, 可選) — 用於計算影像分類/迴歸損失的標籤。索引應在[0, ..., config.num_labels - 1]
範圍內。如果config.num_labels == 1
,則計算迴歸損失(均方損失);如果config.num_labels > 1
,則計算分類損失(交叉熵損失)。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參見返回張量中的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參見返回張量中的hidden_states
。
返回
transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.ImageClassifierOutput 或一個 torch.FloatTensor
的元組(如果傳入 return_dict=False
或 config.return_dict=False
),包含根據配置 (Siglip2Config) 和輸入而定的各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。 -
logits (形狀為
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分類(如果 config.num_labels==1,則為迴歸)分數(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳入output_hidden_states=True
或config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(如果模型有嵌入層,則包含嵌入層輸出,以及每個階段的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個階段輸出處的隱藏狀態(也稱為特徵圖)。 -
attentions (
tuple(torch.FloatTensor)
, 可選, 當傳入output_attentions=True
或config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每層一個),形狀為(batch_size, num_heads, patch_size, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
Siglip2ForImageClassification 的 forward 方法,重寫了 __call__
特殊方法。
儘管前向傳播的方案需要在此函式中定義,但之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoImageProcessor, Siglip2ForImageClassification
>>> import torch
>>> from PIL import Image
>>> import requests
>>> torch.manual_seed(3)
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> # note: we are loading a `Siglip2Model` from the hub here,
>>> # so the head will be randomly initialized, hence the predictions will be random if seed is not set above.
>>> image_processor = AutoImageProcessor.from_pretrained("google/siglip2-base-patch16-224")
>>> model = Siglip2ForImageClassification.from_pretrained("google/siglip2-base-patch16-224")
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the two classes
>>> predicted_class_idx = logits.argmax(-1).item()
>>> print("Predicted class:", model.config.id2label[predicted_class_idx])
Predicted class: LABEL_1