Transformers

( text_config = None vision_config = None projection_dim = 256 projection_intermediate_dim = 4096 logit_scale_init_value = 2.6592 **kwargs )

引數

text_config (dict, 可選) — 用於初始化 GroupViTTextConfig 的配置選項字典。
vision_config (dict, 可選) — 用於初始化 GroupViTVisionConfig 的配置選項字典。
projection_dim (int, 可選, 預設為 256) — 文字和視覺投影層的維度。
projection_intermediate_dim (int, 可選, 預設為 4096) — 文字和視覺投影層的中間層維度。
logit_scale_init_value (float, 可選, 預設為 2.6592) — logit_scale 引數的初始值。預設值根據原始 GroupViT 實現使用。
kwargs (可選) — 關鍵字引數字典。

GroupViTConfig 是用於儲存 GroupViTModel 配置的配置類。它用於根據指定的引數例項化一個 GroupViT 模型，定義文字模型和視覺模型的配置。使用預設值例項化配置將產生與 GroupViT nvidia/groupvit-gcc-yfcc 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

from_text_vision_configs

( text_config: GroupViTTextConfig vision_config: GroupViTVisionConfig **kwargs ) → GroupViTConfig

GroupViTConfig

一個配置物件的例項

從 groupvit 文字模型配置和 groupvit 視覺模型配置例項化一個 GroupViTConfig（或其派生類）。

GroupViTTextConfig

class transformers.GroupViTTextConfig

( vocab_size = 49408 hidden_size = 256 intermediate_size = 1024 num_hidden_layers = 12 num_attention_heads = 4 max_position_embeddings = 77 hidden_act = 'quick_gelu' layer_norm_eps = 1e-05 dropout = 0.0 attention_dropout = 0.0 initializer_range = 0.02 initializer_factor = 1.0 pad_token_id = 1 bos_token_id = 49406 eos_token_id = 49407 **kwargs )

引數

vocab_size (int, 可選, 預設為 49408) — GroupViT 文字模型的詞彙表大小。定義了在呼叫 GroupViTModel 時傳遞的 inputs_ids 可以表示的不同標記的數量。
hidden_size (int, 可選, 預設為 256) — 編碼器層和池化層的維度。
intermediate_size (int, 可選, 預設為 1024) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 4) — Transformer 編碼器中每個注意力層的注意力頭數量。
max_position_embeddings (int, 可選, 預設為 77) — 此模型可能使用的最大序列長度。通常將其設定為較大的值以防萬一（例如 512、1024 或 2048）。
hidden_act (str 或 function, 可選, 預設為 "quick_gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu" 和 "gelu_new" "quick_gelu"。
layer_norm_eps (float, 可選, 預設為 1e-5) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
dropout (float, 可選, 預設為 0.0) — 嵌入層、編碼器和池化層中所有全連線層的 dropout 機率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
initializer_factor (float, 可選, 預設為 1.0) — 用於初始化所有權重矩陣的因子（應保持為 1，內部用於初始化測試）。

這是用於儲存 GroupViTTextModel 配置的配置類。它用於根據指定的引數例項化一個 GroupViT 模型，定義模型架構。使用預設值例項化配置將產生與 GroupViT nvidia/groupvit-gcc-yfcc 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import GroupViTTextConfig, GroupViTTextModel

>>> # Initializing a GroupViTTextModel with nvidia/groupvit-gcc-yfcc style configuration
>>> configuration = GroupViTTextConfig()

>>> model = GroupViTTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

GroupViTVisionConfig

class transformers.GroupViTVisionConfig

( hidden_size = 384 intermediate_size = 1536 depths = [6, 3, 3] num_hidden_layers = 12 num_group_tokens = [64, 8, 0] num_output_groups = [64, 8, 8] num_attention_heads = 6 image_size = 224 patch_size = 16 num_channels = 3 hidden_act = 'gelu' layer_norm_eps = 1e-05 dropout = 0.0 attention_dropout = 0.0 initializer_range = 0.02 initializer_factor = 1.0 assign_eps = 1.0 assign_mlp_ratio = [0.5, 4] **kwargs )

引數

hidden_size (int, 可選, 預設為 384) — 編碼器層和池化層的維度。
intermediate_size (int, 可選, 預設為 1536) — Transformer 編碼器中“中間”（即前饋）層的維度。
depths (list[int], 可選, 預設為 [6, 3, 3]) — 每個編碼器塊中的層數。
num_group_tokens (list[int], 可選, 預設為 [64, 8, 0]) — 每個階段的組標記數量。
num_output_groups (list[int], 可選, 預設為 [64, 8, 8]) — 每個階段的輸出組數，0 表示沒有組。
num_attention_heads (int, 可選, 預設為 6) — Transformer 編碼器中每個注意力層的注意力頭數量。
image_size (int, 可選, 預設為 224) — 每個影像的大小（解析度）。
patch_size (int, 可選, 預設為 16) — 每個 patch 的大小（解析度）。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu" 和 "gelu_new" "quick_gelu"。
layer_norm_eps (float, 可選, 預設為 1e-5) — 層歸一化層使用的 epsilon 值。
dropout (float, 可選, 預設為 0.0) — 嵌入層、編碼器和池化層中所有全連線層的 dropout 機率。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
initializer_factor (float, 可選, 預設為 1.0) — 用於初始化所有權重矩陣的因子（應保持為 1，用於內部初始化測試）。

這是用於儲存 GroupViTVisionModel 配置的配置類。它用於根據指定的引數例項化一個 GroupViT 模型，定義模型架構。使用預設值例項化配置將產生與 GroupViT nvidia/groupvit-gcc-yfcc 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import GroupViTVisionConfig, GroupViTVisionModel

>>> # Initializing a GroupViTVisionModel with nvidia/groupvit-gcc-yfcc style configuration
>>> configuration = GroupViTVisionConfig()

>>> model = GroupViTVisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Pytorch

隱藏 Pytorch 內容

GroupViTModel

class transformers.GroupViTModel

( config: GroupViTConfig )

引數

config (GroupViTConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

基礎的 Groupvit 模型，輸出原始的隱藏狀態，頂部沒有任何特定的頭部。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None return_loss: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_segmentation: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.groupvit.modeling_groupvit.GroupViTModelOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被遮蓋，
- 0 表示標記被遮蓋。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
return_loss (bool, 可選) — 是否返回對比損失。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
output_segmentation (bool, 可選) — 是否返回分割 logits。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.models.groupvit.modeling_groupvit.GroupViTModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.groupvit.modeling_groupvit.GroupViTModelOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），包含各種元素，具體取決於配置（GroupViTConfig）和輸入。

loss (torch.FloatTensor，形狀為 (1,), 可選, 當 return_loss 為 True 時返回) — 影像-文字相似度的對比損失。
logits_per_image (torch.FloatTensor，形狀為 (image_batch_size, text_batch_size)) — image_embeds 和 text_embeds 之間的縮放點積得分。這表示圖文相似度分數。
logits_per_text (torch.FloatTensor，形狀為 (text_batch_size, image_batch_size)) — text_embeds 和 image_embeds 之間的縮放點積得分。這表示文圖相似度分數。
segmentation_logits (torch.FloatTensor，形狀為 (batch_size, config.num_labels, logits_height, logits_width)) — 每個畫素的分類分數。

返回的 logits 的大小不一定與作為輸入的 `pixel_values` 相同。這是為了避免進行兩次插值並損失一些質量，當用戶需要將 logits 調整到原始影像大小時，可以作為後處理步驟。您應始終檢查 logits 的形狀並根據需要調整大小。
text_embeds (torch.FloatTensor，形狀為 (batch_size, output_dim)) — 透過將投影層應用於 GroupViTTextModel 的池化輸出而獲得的文字嵌入。
image_embeds (torch.FloatTensor，形狀為 (batch_size, output_dim)) — 透過將投影層應用於 GroupViTVisionModel 的池化輸出而獲得的影像嵌入。
text_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.text_model_output, 預設為 None) — GroupViTTextModel 的輸出。
vision_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.vision_model_output, 預設為 None) — GroupViTVisionModel 的輸出。

GroupViTModel 的前向方法，重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義，但之後應該呼叫 `Module` 例項而不是這個函式，因為前者會處理預處理和後處理步驟，而後者會靜默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, GroupViTModel

>>> model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(
...     text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True
... )

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

get_text_features

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → text_features (torch.FloatTensor，形狀為 (batch_size, output_dim))

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被遮蓋，
- 0 表示標記被遮蓋。
什麼是注意力掩碼？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

text_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 GroupViTTextModel 的池化輸出而獲得的文字嵌入。

示例

>>> from transformers import CLIPTokenizer, GroupViTModel

>>> model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
>>> text_features = model.get_text_features(**inputs)

get_image_features

( pixel_values: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → image_features (torch.FloatTensor，形狀為 (batch_size, output_dim))

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

image_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 GroupViTVisionModel 的池化輸出而獲得的影像嵌入。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, GroupViTModel

>>> model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> image_features = model.get_image_features(**inputs)

GroupViTTextModel

class transformers.GroupViTTextModel

( config: GroupViTTextConfig )

forward

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被遮蓋，
- 0 表示標記被遮蓋。
什麼是注意力掩碼？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），包含各種元素，具體取決於配置（GroupViTConfig）和輸入。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor，形狀為 (batch_size, hidden_size)) — 序列的第一個標記（分類標記）的最後一層隱藏狀態，經過用於輔助預訓練任務的層進一步處理。例如，對於 BERT 系列模型，這將返回經過線性層和 tanh 啟用函式處理後的分類標記。線性層的權重是在預訓練期間從下一句預測（分類）目標中訓練的。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則一個用於嵌入的輸出，+ 每個層一個用於輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

GroupViTTextModel 的前向方法，重寫了 `__call__` 特殊方法。

示例

>>> from transformers import CLIPTokenizer, GroupViTTextModel

>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> model = GroupViTTextModel.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states

GroupViTVisionModel

class transformers.GroupViTVisionModel

( config: GroupViTVisionConfig )

forward

( pixel_values: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor，形狀為 (batch_size, hidden_size)) — 序列的第一個標記（分類標記）的最後一層隱藏狀態，經過用於輔助預訓練任務的層進一步處理。例如，對於 BERT 系列模型，這將返回經過線性層和 tanh 啟用函式處理後的分類標記。線性層的權重是在預訓練期間從下一句預測（分類）目標中訓練的。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則一個用於嵌入的輸出，+ 每個層一個用於輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

GroupViTVisionModel 的前向方法，重寫了 `__call__` 特殊方法。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, GroupViTVisionModel

>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> model = GroupViTVisionModel.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled CLS states

TensorFlow

隱藏 TensorFlow 內容

TFGroupViTModel

class transformers.TFGroupViTModel

( config: GroupViTConfig *inputs **kwargs )

引數

config (GroupViTConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

該模型繼承自 TFPreTrainedModel。請檢視超類文件，瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 keras.Model 的子類。可以像常規的 TF 2.0 Keras 模型一樣使用它，並參考 TF 2.0 文件瞭解所有與通用用法和行為相關的事項。

TF 2.0 模型接受兩種輸入格式

所有輸入作為關鍵字引數（如 PyTorch 模型），或
將所有輸入作為列表、元組或字典放在第一個位置引數中。

當使用 `keras.Model.fit` 方法時，第二種選項非常有用，該方法目前要求將所有張量放在模型呼叫函式的第一個引數中：`model(inputs)`。

如果選擇第二種選項，有三種可能的方式可以將所有輸入張量收集到第一個位置引數中

只有一個 input_ids 的單個張量，沒有其他：model(input_ids)
長度可變的列表，包含一個或多個輸入張量，按文件字串中給出的順序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一個字典，其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

呼叫

( input_ids: TFModelInputType | None = None pixel_values: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None return_loss: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None output_segmentation: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.groupvit.modeling_tf_groupvit.TFGroupViTModelOutput 或 tuple(tf.Tensor)

引數

input_ids (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個樣本的形狀必須為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。有關詳細資訊，請參閱 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。

什麼是輸入 ID？
pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個樣本的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。畫素值可以使用 AutoImageProcessor 獲得。有關詳細資訊，請參閱 CLIPImageProcessor.call()。
attention_mask (np.ndarray 或 tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未遮蔽的標記，
- 0 表示已遮蔽的標記。
什麼是注意力掩碼？
position_ids (np.ndarray 或 tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列標記的位置索引。在 [0, config.max_position_embeddings - 1] 範圍內選擇。

什麼是位置 ID？
return_loss (bool, 可選) — 是否返回對比損失。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用，在圖模式下該值將始終設定為 True。
training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型（某些模組，如 dropout 模組，在訓練和評估之間有不同的行為）。

transformers.models.groupvit.modeling_tf_groupvit.TFGroupViTModelOutput 或 tuple(tf.Tensor)

一個 transformers.models.groupvit.modeling_tf_groupvit.TFGroupViTModelOutput 或一個 `tf.Tensor` 元組（如果傳遞了 `return_dict=False` 或當 `config.return_dict=False` 時），包含各種元素，具體取決於配置 (`<class 'transformers.models.groupvit.configuration_groupvit.GroupViTConfig'>`) 和輸入。

loss (tf.Tensor，形狀為 (1,)，可選，當 return_loss 為 True 時返回) — 影像-文字相似度的對比損失。
logits_per_image (tf.Tensor，形狀為 (image_batch_size, text_batch_size)) — `image_embeds` 和 `text_embeds` 之間的縮放點積得分。這表示影像-文字相似度得分。
logits_per_text (tf.Tensor，形狀為 (text_batch_size, image_batch_size)) — `text_embeds` 和 `image_embeds` 之間的縮放點積得分。這表示文字-影像相似度得分。
segmentation_logits (tf.Tensor，形狀為 (batch_size, config.num_labels, logits_height, logits_width)) — 每個畫素的分類分數。

返回的 logits 的大小不一定與作為輸入的 `pixel_values` 相同。這是為了避免進行兩次插值並損失一些質量，當用戶需要將 logits 調整到原始影像大小時，可以作為後處理步驟。您應始終檢查 logits 的形狀並根據需要調整大小。
text_embeds (tf.Tensor，形狀為 (batch_size, output_dim)) — 將投影層應用於 TFGroupViTTextModel 的池化輸出所獲得的文字嵌入。
image_embeds (tf.Tensor，形狀為 (batch_size, output_dim)) — 將投影層應用於 TFGroupViTVisionModel 的池化輸出所獲得的影像嵌入。
text_model_output (`TFBaseModelOutputWithPooling`) — TFGroupViTTextModel 的輸出。
vision_model_output (`TFBaseModelOutputWithPooling`) — TFGroupViTVisionModel 的輸出。

TFGroupViTModel 的前向方法，重寫了 `__call__` 特殊方法。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, TFGroupViTModel
>>> import tensorflow as tf

>>> model = TFGroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(
...     text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="tf", padding=True
... )

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = tf.math.softmax(logits_per_image, axis=1)  # we can take the softmax to get the label probabilities

get_text_features

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → text_features (tf.Tensor，形狀為 (batch_size, output_dim))

引數

input_ids (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個樣本的形狀必須為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。有關詳細資訊，請參閱 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。

什麼是輸入 ID？
attention_mask (np.ndarray 或 tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未遮蔽的標記，
- 0 表示已遮蔽的標記。
什麼是注意力掩碼？
position_ids (np.ndarray 或 tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列標記的位置索引。在 [0, config.max_position_embeddings - 1] 範圍內選擇。

什麼是位置 ID？
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用，在圖模式下該值將始終設定為 True。
training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型（某些模組，如 dropout 模組，在訓練和評估之間有不同的行為）。

text_features (tf.Tensor，形狀為 (batch_size, output_dim)

將投影層應用於 TFGroupViTTextModel 的池化輸出所獲得的文字嵌入。

TFGroupViTModel 的前向方法，重寫了 `__call__` 特殊方法。

示例

>>> from transformers import CLIPTokenizer, TFGroupViTModel

>>> model = TFGroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="tf")
>>> text_features = model.get_text_features(**inputs)

get_image_features

( pixel_values: TFModelInputType | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → image_features (tf.Tensor，形狀為 (batch_size, output_dim))

引數

pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個樣本的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。畫素值可以使用 AutoImageProcessor 獲得。有關詳細資訊，請參閱 CLIPImageProcessor.call()。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用，在圖模式下該值將始終設定為 True。
training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型（某些模組，如 dropout 模組，在訓練和評估之間有不同的行為）。

image_features (tf.Tensor，形狀為 (batch_size, output_dim)

將投影層應用於 TFGroupViTVisionModel 的池化輸出所獲得的影像嵌入。

TFGroupViTModel 的前向方法，重寫了 `__call__` 特殊方法。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, TFGroupViTModel

>>> model = TFGroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="tf")

>>> image_features = model.get_image_features(**inputs)

TFGroupViTTextModel

class transformers.TFGroupViTTextModel

( config: GroupViTTextConfig *inputs **kwargs )

呼叫

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)

引數

input_ids (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個樣本的形狀必須為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。有關詳細資訊，請參閱 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。

什麼是輸入 ID？
attention_mask (np.ndarray 或 tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未遮蔽的標記，
- 0 表示已遮蔽的標記。
什麼是注意力掩碼？
position_ids (np.ndarray 或 tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列標記的位置索引。在 [0, config.max_position_embeddings - 1] 範圍內選擇。

什麼是位置 ID？
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用，在圖模式下該值將始終設定為 True。
training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型（某些模組，如 dropout 模組，在訓練和評估之間有不同的行為）。

transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或一個 `tf.Tensor` 元組（如果傳遞了 `return_dict=False` 或當 `config.return_dict=False` 時），包含各種元素，具體取決於配置 (`<class 'transformers.models.groupvit.configuration_groupvit.GroupViTTextConfig'>`) 和輸入。

last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (tf.Tensor，形狀為 (batch_size, hidden_size)) — 序列第一個標記（分類標記）的最後一層隱藏狀態，經過線性層和 Tanh 啟用函式進一步處理。線性層權重是在預訓練期間透過下一句預測（分類）目標進行訓練的。

此輸出通常不是輸入語義內容的良好摘要，通常最好對整個輸入序列的隱藏狀態進行平均或池化。
hidden_states (tuple(tf.Tensor), 可選, 當傳遞 `output_hidden_states=True` 或當 `config.output_hidden_states=True` 時返回) — `tf.Tensor` 的元組（一個用於嵌入的輸出 + 一個用於每層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
attentions (tuple(tf.Tensor), 可選, 當傳遞 `output_attentions=True` 或當 `config.output_attentions=True` 時返回) — `tf.Tensor` 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

TFGroupViTTextModel 的前向方法，重寫了 `__call__` 特殊方法。

示例

>>> from transformers import CLIPTokenizer, TFGroupViTTextModel

>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> model = TFGroupViTTextModel.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="tf")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states

TFGroupViTVisionModel

class transformers.TFGroupViTVisionModel

( config: GroupViTVisionConfig *inputs **kwargs )

呼叫