Transformers 文件

GroupViT

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

GroupViT

PyTorch TensorFlow

概述

GroupViT 模型由 Jiarui Xu、Shalini De Mello、Sifei Liu、Wonmin Byeon、Thomas Breuel、Jan Kautz 和 Xiaolong Wang 在論文 GroupViT: Semantic Segmentation Emerges from Text Supervision 中提出。受到 CLIP 的啟發,GroupViT 是一個視覺-語言模型,可以對任何給定的詞彙類別執行零樣本語義分割。

論文摘要如下:

摘要內容:分組和識別是視覺場景理解的重要組成部分,例如,用於目標檢測和語義分割。在端到端的深度學習系統中,影像區域的分組通常是透過畫素級識別標籤的自上而下監督隱式實現的。相反,在本文中,我們建議將分組機制重新引入深度網路,這使得語義分割能夠在僅有文字監督的情況下自動出現。我們提出了一種分層的分組視覺 Transformer(GroupViT),它超越了常規的網格結構表示,並學習將影像區域分組為逐漸增大的任意形狀的分割塊。我們透過對比損失,在一個大規模的圖文資料集上聯合訓練 GroupViT 和一個文字編碼器。僅透過文字監督,無需任何畫素級標註,GroupViT 就能學會將語義區域分組在一起,併成功地以零樣本方式遷移到語義分割任務中,即無需任何進一步的微調。它在 PASCAL VOC 2012 資料集上實現了 52.3% mIoU 的零樣本準確率,在 PASCAL Context 資料集上實現了 22.4% mIoU,與需要更高監督水平的最先進的遷移學習方法相比具有競爭力。

此模型由 xvjiarui 貢獻。TensorFlow 版本由 ariG23498Yih-Dar SHIEHAmy RobertsJoao Gante 的幫助下貢獻。原始程式碼可以在這裡找到。

使用技巧

  • 您可以在 GroupViTModel 的前向傳播中指定 output_segmentation=True,以獲取輸入文字的分割 logits。

資源

一系列官方 Hugging Face 和社群(由 🌎 標誌)資源,幫助您開始使用 GroupViT。

GroupViTConfig

class transformers.GroupViTConfig

< >

( text_config = None vision_config = None projection_dim = 256 projection_intermediate_dim = 4096 logit_scale_init_value = 2.6592 **kwargs )

引數

  • text_config (dict, 可選) — 用於初始化 GroupViTTextConfig 的配置選項字典。
  • vision_config (dict, 可選) — 用於初始化 GroupViTVisionConfig 的配置選項字典。
  • projection_dim (int, 可選, 預設為 256) — 文字和視覺投影層的維度。
  • projection_intermediate_dim (int, 可選, 預設為 4096) — 文字和視覺投影層的中間層維度。
  • logit_scale_init_value (float, 可選, 預設為 2.6592) — logit_scale 引數的初始值。預設值根據原始 GroupViT 實現使用。
  • kwargs (可選) — 關鍵字引數字典。

GroupViTConfig 是用於儲存 GroupViTModel 配置的配置類。它用於根據指定的引數例項化一個 GroupViT 模型,定義文字模型和視覺模型的配置。使用預設值例項化配置將產生與 GroupViT nvidia/groupvit-gcc-yfcc 架構類似的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請閱讀 PretrainedConfig 的文件。

from_text_vision_configs

< >

( text_config: GroupViTTextConfig vision_config: GroupViTVisionConfig **kwargs ) GroupViTConfig

返回

GroupViTConfig

一個配置物件的例項

從 groupvit 文字模型配置和 groupvit 視覺模型配置例項化一個 GroupViTConfig(或其派生類)。

GroupViTTextConfig

class transformers.GroupViTTextConfig

< >

( vocab_size = 49408 hidden_size = 256 intermediate_size = 1024 num_hidden_layers = 12 num_attention_heads = 4 max_position_embeddings = 77 hidden_act = 'quick_gelu' layer_norm_eps = 1e-05 dropout = 0.0 attention_dropout = 0.0 initializer_range = 0.02 initializer_factor = 1.0 pad_token_id = 1 bos_token_id = 49406 eos_token_id = 49407 **kwargs )

引數

  • vocab_size (int, 可選, 預設為 49408) — GroupViT 文字模型的詞彙表大小。定義了在呼叫 GroupViTModel 時傳遞的 inputs_ids 可以表示的不同標記的數量。
  • hidden_size (int, 可選, 預設為 256) — 編碼器層和池化層的維度。
  • intermediate_size (int, 可選, 預設為 1024) — Transformer 編碼器中“中間”(即前饋)層的維度。
  • num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
  • num_attention_heads (int, 可選, 預設為 4) — Transformer 編碼器中每個注意力層的注意力頭數量。
  • max_position_embeddings (int, 可選, 預設為 77) — 此模型可能使用的最大序列長度。通常將其設定為較大的值以防萬一(例如 512、1024 或 2048)。
  • hidden_act (strfunction, 可選, 預設為 "quick_gelu") — 編碼器和池化層中的非線性啟用函式(函式或字串)。如果為字串,則支援 "gelu""relu""selu""gelu_new" "quick_gelu"
  • layer_norm_eps (float, 可選, 預設為 1e-5) — 層歸一化層使用的 epsilon 值。
  • attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
  • dropout (float, 可選, 預設為 0.0) — 嵌入層、編碼器和池化層中所有全連線層的 dropout 機率。
  • initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
  • initializer_factor (float, 可選, 預設為 1.0) — 用於初始化所有權重矩陣的因子(應保持為 1,內部用於初始化測試)。

這是用於儲存 GroupViTTextModel 配置的配置類。它用於根據指定的引數例項化一個 GroupViT 模型,定義模型架構。使用預設值例項化配置將產生與 GroupViT nvidia/groupvit-gcc-yfcc 架構類似的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import GroupViTTextConfig, GroupViTTextModel

>>> # Initializing a GroupViTTextModel with nvidia/groupvit-gcc-yfcc style configuration
>>> configuration = GroupViTTextConfig()

>>> model = GroupViTTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

GroupViTVisionConfig

class transformers.GroupViTVisionConfig

< >

( hidden_size = 384 intermediate_size = 1536 depths = [6, 3, 3] num_hidden_layers = 12 num_group_tokens = [64, 8, 0] num_output_groups = [64, 8, 8] num_attention_heads = 6 image_size = 224 patch_size = 16 num_channels = 3 hidden_act = 'gelu' layer_norm_eps = 1e-05 dropout = 0.0 attention_dropout = 0.0 initializer_range = 0.02 initializer_factor = 1.0 assign_eps = 1.0 assign_mlp_ratio = [0.5, 4] **kwargs )

引數

  • hidden_size (int, 可選, 預設為 384) — 編碼器層和池化層的維度。
  • intermediate_size (int, 可選, 預設為 1536) — Transformer 編碼器中“中間”(即前饋)層的維度。
  • depths (list[int], 可選, 預設為 [6, 3, 3]) — 每個編碼器塊中的層數。
  • num_group_tokens (list[int], 可選, 預設為 [64, 8, 0]) — 每個階段的組標記數量。
  • num_output_groups (list[int], 可選, 預設為 [64, 8, 8]) — 每個階段的輸出組數,0 表示沒有組。
  • num_attention_heads (int, 可選, 預設為 6) — Transformer 編碼器中每個注意力層的注意力頭數量。
  • image_size (int, 可選, 預設為 224) — 每個影像的大小(解析度)。
  • patch_size (int, 可選, 預設為 16) — 每個 patch 的大小(解析度)。
  • hidden_act (strfunction, 可選, 預設為 "gelu") — 編碼器和池化層中的非線性啟用函式(函式或字串)。如果為字串,則支援 "gelu""relu""selu""gelu_new" "quick_gelu"
  • layer_norm_eps (float, 可選, 預設為 1e-5) — 層歸一化層使用的 epsilon 值。
  • dropout (float, 可選, 預設為 0.0) — 嵌入層、編碼器和池化層中所有全連線層的 dropout 機率。
  • attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
  • initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
  • initializer_factor (float, 可選, 預設為 1.0) — 用於初始化所有權重矩陣的因子(應保持為 1,用於內部初始化測試)。

這是用於儲存 GroupViTVisionModel 配置的配置類。它用於根據指定的引數例項化一個 GroupViT 模型,定義模型架構。使用預設值例項化配置將產生與 GroupViT nvidia/groupvit-gcc-yfcc 架構類似的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import GroupViTVisionConfig, GroupViTVisionModel

>>> # Initializing a GroupViTVisionModel with nvidia/groupvit-gcc-yfcc style configuration
>>> configuration = GroupViTVisionConfig()

>>> model = GroupViTVisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config
Pytorch
隱藏 Pytorch 內容

GroupViTModel

class transformers.GroupViTModel

< >

( config: GroupViTConfig )

引數

  • config (GroupViTConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

基礎的 Groupvit 模型,輸出原始的隱藏狀態,頂部沒有任何特定的頭部。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None pixel_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None return_loss: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_segmentation: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.models.groupvit.modeling_groupvit.GroupViTModelOutputtuple(torch.FloatTensor)

引數

  • input_ids (torch.LongTensor,形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • pixel_values (torch.FloatTensor,形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊,請參閱 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 處理影像)。
  • attention_mask (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示標記未被遮蓋
    • 0 表示標記被遮蓋

    什麼是注意力掩碼?

  • position_ids (torch.LongTensor,形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

    什麼是位置 ID?

  • return_loss (bool, 可選) — 是否返回對比損失。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。
  • output_segmentation (bool, 可選) — 是否返回分割 logits。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.models.groupvit.modeling_groupvit.GroupViTModelOutputtuple(torch.FloatTensor)

一個 transformers.models.groupvit.modeling_groupvit.GroupViTModelOutput 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),包含各種元素,具體取決於配置(GroupViTConfig)和輸入。

  • loss (torch.FloatTensor,形狀為 (1,), 可選, 當 return_lossTrue 時返回) — 影像-文字相似度的對比損失。

  • logits_per_image (torch.FloatTensor,形狀為 (image_batch_size, text_batch_size)) — image_embedstext_embeds 之間的縮放點積得分。這表示圖文相似度分數。

  • logits_per_text (torch.FloatTensor,形狀為 (text_batch_size, image_batch_size)) — text_embedsimage_embeds 之間的縮放點積得分。這表示文圖相似度分數。

  • segmentation_logits (torch.FloatTensor,形狀為 (batch_size, config.num_labels, logits_height, logits_width)) — 每個畫素的分類分數。

    返回的 logits 的大小不一定與作為輸入的 `pixel_values` 相同。這是為了避免進行兩次插值並損失一些質量,當用戶需要將 logits 調整到原始影像大小時,可以作為後處理步驟。您應始終檢查 logits 的形狀並根據需要調整大小。

  • text_embeds (torch.FloatTensor,形狀為 (batch_size, output_dim)) — 透過將投影層應用於 GroupViTTextModel 的池化輸出而獲得的文字嵌入。

  • image_embeds (torch.FloatTensor,形狀為 (batch_size, output_dim)) — 透過將投影層應用於 GroupViTVisionModel 的池化輸出而獲得的影像嵌入。

  • text_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.text_model_output, 預設為 None) — GroupViTTextModel 的輸出。

  • vision_model_output (<class '~modeling_outputs.BaseModelOutputWithPooling'>.vision_model_output, 預設為 None) — GroupViTVisionModel 的輸出。

GroupViTModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, GroupViTModel

>>> model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(
...     text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True
... )

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

get_text_features

< >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) text_features (torch.FloatTensor,形狀為 (batch_size, output_dim))

引數

  • input_ids (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示標記未被遮蓋
    • 0 表示標記被遮蓋

    什麼是注意力掩碼?

  • position_ids (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

    什麼是位置 ID?

  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

返回

text_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 GroupViTTextModel 的池化輸出而獲得的文字嵌入。

示例

>>> from transformers import CLIPTokenizer, GroupViTModel

>>> model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
>>> text_features = model.get_text_features(**inputs)

get_image_features

< >

( pixel_values: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) image_features (torch.FloatTensor,形狀為 (batch_size, output_dim))

引數

  • pixel_values (torch.FloatTensor,形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊,請參閱 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 處理影像)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

返回

image_features (torch.FloatTensor, 形狀為 (batch_size, output_dim)

透過將投影層應用於 GroupViTVisionModel 的池化輸出而獲得的影像嵌入。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, GroupViTModel

>>> model = GroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> image_features = model.get_image_features(**inputs)

GroupViTTextModel

class transformers.GroupViTTextModel

< >

( config: GroupViTTextConfig )

forward

< >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

引數

  • input_ids (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示標記未被遮蓋
    • 0 表示標記被遮蓋

    什麼是注意力掩碼?

  • position_ids (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

    什麼是位置 ID?

  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),包含各種元素,具體取決於配置(GroupViTConfig)和輸入。

  • last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

  • pooler_output (torch.FloatTensor,形狀為 (batch_size, hidden_size)) — 序列的第一個標記(分類標記)的最後一層隱藏狀態,經過用於輔助預訓練任務的層進一步處理。例如,對於 BERT 系列模型,這將返回經過線性層和 tanh 啟用函式處理後的分類標記。線性層的權重是在預訓練期間從下一句預測(分類)目標中訓練的。

  • hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(如果模型有嵌入層,則一個用於嵌入的輸出,+ 每個層一個用於輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

GroupViTTextModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from transformers import CLIPTokenizer, GroupViTTextModel

>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> model = GroupViTTextModel.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states

GroupViTVisionModel

class transformers.GroupViTVisionModel

< >

( config: GroupViTVisionConfig )

forward

< >

( pixel_values: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

引數

  • pixel_values (torch.FloatTensor,形狀為 (batch_size, num_channels, image_size, image_size), 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊,請參閱 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 處理影像)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),包含各種元素,具體取決於配置(GroupViTConfig)和輸入。

  • last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

  • pooler_output (torch.FloatTensor,形狀為 (batch_size, hidden_size)) — 序列的第一個標記(分類標記)的最後一層隱藏狀態,經過用於輔助預訓練任務的層進一步處理。例如,對於 BERT 系列模型,這將返回經過線性層和 tanh 啟用函式處理後的分類標記。線性層的權重是在預訓練期間從下一句預測(分類)目標中訓練的。

  • hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(如果模型有嵌入層,則一個用於嵌入的輸出,+ 每個層一個用於輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

GroupViTVisionModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, GroupViTVisionModel

>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> model = GroupViTVisionModel.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled CLS states
TensorFlow
隱藏 TensorFlow 內容

TFGroupViTModel

class transformers.TFGroupViTModel

< >

( config: GroupViTConfig *inputs **kwargs )

引數

  • config (GroupViTConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

該模型繼承自 TFPreTrainedModel。請檢視超類文件,瞭解該庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

該模型也是 keras.Model 的子類。可以像常規的 TF 2.0 Keras 模型一樣使用它,並參考 TF 2.0 文件瞭解所有與通用用法和行為相關的事項。

TF 2.0 模型接受兩種輸入格式

  • 所有輸入作為關鍵字引數(如 PyTorch 模型),或
  • 將所有輸入作為列表、元組或字典放在第一個位置引數中。

當使用 `keras.Model.fit` 方法時,第二種選項非常有用,該方法目前要求將所有張量放在模型呼叫函式的第一個引數中:`model(inputs)`。

如果選擇第二種選項,有三種可能的方式可以將所有輸入張量收集到第一個位置引數中

  • 只有一個 input_ids 的單個張量,沒有其他:model(input_ids)
  • 長度可變的列表,包含一個或多個輸入張量,按文件字串中給出的順序:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 一個字典,其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

呼叫

< >

( input_ids: TFModelInputType | None = None pixel_values: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None return_loss: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None output_segmentation: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.models.groupvit.modeling_tf_groupvit.TFGroupViTModelOutputtuple(tf.Tensor)

引數

  • input_ids (np.ndarray, tf.Tensor, list[tf.Tensor]dict[str, tf.Tensor]dict[str, np.ndarray],並且每個樣本的形狀必須為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。有關詳細資訊,請參閱 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    什麼是輸入 ID?

  • pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]dict[str, tf.Tensor]dict[str, np.ndarray],並且每個樣本的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。畫素值可以使用 AutoImageProcessor 獲得。有關詳細資訊,請參閱 CLIPImageProcessor.call()
  • attention_mask (np.ndarraytf.Tensor,形狀為 (batch_size, sequence_length)可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未遮蔽的標記,
    • 0 表示已遮蔽的標記。

    什麼是注意力掩碼?

  • position_ids (np.ndarraytf.Tensor,形狀為 (batch_size, sequence_length)可選) — 位置嵌入中每個輸入序列標記的位置索引。在 [0, config.max_position_embeddings - 1] 範圍內選擇。

    什麼是位置 ID?

  • return_loss (bool, 可選) — 是否返回對比損失。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用,在圖模式下該值將始終設定為 True。
  • training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型(某些模組,如 dropout 模組,在訓練和評估之間有不同的行為)。

返回

transformers.models.groupvit.modeling_tf_groupvit.TFGroupViTModelOutputtuple(tf.Tensor)

一個 transformers.models.groupvit.modeling_tf_groupvit.TFGroupViTModelOutput 或一個 `tf.Tensor` 元組(如果傳遞了 `return_dict=False` 或當 `config.return_dict=False` 時),包含各種元素,具體取決於配置 (`<class 'transformers.models.groupvit.configuration_groupvit.GroupViTConfig'>`) 和輸入。

  • loss (tf.Tensor,形狀為 (1,)可選,當 return_lossTrue 時返回) — 影像-文字相似度的對比損失。

  • logits_per_image (tf.Tensor,形狀為 (image_batch_size, text_batch_size)) — `image_embeds` 和 `text_embeds` 之間的縮放點積得分。這表示影像-文字相似度得分。

  • logits_per_text (tf.Tensor,形狀為 (text_batch_size, image_batch_size)) — `text_embeds` 和 `image_embeds` 之間的縮放點積得分。這表示文字-影像相似度得分。

  • segmentation_logits (tf.Tensor,形狀為 (batch_size, config.num_labels, logits_height, logits_width)) — 每個畫素的分類分數。

    返回的 logits 的大小不一定與作為輸入的 `pixel_values` 相同。這是為了避免進行兩次插值並損失一些質量,當用戶需要將 logits 調整到原始影像大小時,可以作為後處理步驟。您應始終檢查 logits 的形狀並根據需要調整大小。

  • text_embeds (tf.Tensor,形狀為 (batch_size, output_dim)) — 將投影層應用於 TFGroupViTTextModel 的池化輸出所獲得的文字嵌入。

  • image_embeds (tf.Tensor,形狀為 (batch_size, output_dim)) — 將投影層應用於 TFGroupViTVisionModel 的池化輸出所獲得的影像嵌入。

  • text_model_output (`TFBaseModelOutputWithPooling`) — TFGroupViTTextModel 的輸出。

  • vision_model_output (`TFBaseModelOutputWithPooling`) — TFGroupViTVisionModel 的輸出。

TFGroupViTModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, TFGroupViTModel
>>> import tensorflow as tf

>>> model = TFGroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(
...     text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="tf", padding=True
... )

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = tf.math.softmax(logits_per_image, axis=1)  # we can take the softmax to get the label probabilities

get_text_features

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) text_features (tf.Tensor,形狀為 (batch_size, output_dim))

引數

  • input_ids (np.ndarray, tf.Tensor, list[tf.Tensor]dict[str, tf.Tensor]dict[str, np.ndarray],並且每個樣本的形狀必須為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。有關詳細資訊,請參閱 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    什麼是輸入 ID?

  • attention_mask (np.ndarraytf.Tensor,形狀為 (batch_size, sequence_length)可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未遮蔽的標記,
    • 0 表示已遮蔽的標記。

    什麼是注意力掩碼?

  • position_ids (np.ndarraytf.Tensor,形狀為 (batch_size, sequence_length)可選) — 位置嵌入中每個輸入序列標記的位置索引。在 [0, config.max_position_embeddings - 1] 範圍內選擇。

    什麼是位置 ID?

  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用,在圖模式下該值將始終設定為 True。
  • training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型(某些模組,如 dropout 模組,在訓練和評估之間有不同的行為)。

返回

text_features (tf.Tensor,形狀為 (batch_size, output_dim)

將投影層應用於 TFGroupViTTextModel 的池化輸出所獲得的文字嵌入。

TFGroupViTModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from transformers import CLIPTokenizer, TFGroupViTModel

>>> model = TFGroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="tf")
>>> text_features = model.get_text_features(**inputs)

get_image_features

< >

( pixel_values: TFModelInputType | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) image_features (tf.Tensor,形狀為 (batch_size, output_dim))

引數

  • pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]dict[str, tf.Tensor]dict[str, np.ndarray],並且每個樣本的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。畫素值可以使用 AutoImageProcessor 獲得。有關詳細資訊,請參閱 CLIPImageProcessor.call()
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用,在圖模式下該值將始終設定為 True。
  • training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型(某些模組,如 dropout 模組,在訓練和評估之間有不同的行為)。

返回

image_features (tf.Tensor,形狀為 (batch_size, output_dim)

將投影層應用於 TFGroupViTVisionModel 的池化輸出所獲得的影像嵌入。

TFGroupViTModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, TFGroupViTModel

>>> model = TFGroupViTModel.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="tf")

>>> image_features = model.get_image_features(**inputs)

TFGroupViTTextModel

class transformers.TFGroupViTTextModel

< >

( config: GroupViTTextConfig *inputs **kwargs )

呼叫

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingtuple(tf.Tensor)

引數

  • input_ids (np.ndarray, tf.Tensor, list[tf.Tensor]dict[str, tf.Tensor]dict[str, np.ndarray],並且每個樣本的形狀必須為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。有關詳細資訊,請參閱 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    什麼是輸入 ID?

  • attention_mask (np.ndarraytf.Tensor,形狀為 (batch_size, sequence_length)可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未遮蔽的標記,
    • 0 表示已遮蔽的標記。

    什麼是注意力掩碼?

  • position_ids (np.ndarraytf.Tensor,形狀為 (batch_size, sequence_length)可選) — 位置嵌入中每個輸入序列標記的位置索引。在 [0, config.max_position_embeddings - 1] 範圍內選擇。

    什麼是位置 ID?

  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用,在圖模式下該值將始終設定為 True。
  • training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型(某些模組,如 dropout 模組,在訓練和評估之間有不同的行為)。

返回

transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingtuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或一個 `tf.Tensor` 元組(如果傳遞了 `return_dict=False` 或當 `config.return_dict=False` 時),包含各種元素,具體取決於配置 (`<class 'transformers.models.groupvit.configuration_groupvit.GroupViTTextConfig'>`) 和輸入。

  • last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

  • pooler_output (tf.Tensor,形狀為 (batch_size, hidden_size)) — 序列第一個標記(分類標記)的最後一層隱藏狀態,經過線性層和 Tanh 啟用函式進一步處理。線性層權重是在預訓練期間透過下一句預測(分類)目標進行訓練的。

    此輸出通常不是輸入語義內容的良好摘要,通常最好對整個輸入序列的隱藏狀態進行平均或池化。

  • hidden_states (tuple(tf.Tensor), 可選, 當傳遞 `output_hidden_states=True` 或當 `config.output_hidden_states=True` 時返回) — `tf.Tensor` 的元組(一個用於嵌入的輸出 + 一個用於每層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態加上初始嵌入輸出。

  • attentions (tuple(tf.Tensor), 可選, 當傳遞 `output_attentions=True` 或當 `config.output_attentions=True` 時返回) — `tf.Tensor` 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

TFGroupViTTextModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from transformers import CLIPTokenizer, TFGroupViTTextModel

>>> tokenizer = CLIPTokenizer.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> model = TFGroupViTTextModel.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="tf")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled (EOS token) states

TFGroupViTVisionModel

class transformers.TFGroupViTVisionModel

< >

( config: GroupViTVisionConfig *inputs **kwargs )

呼叫

< >

( pixel_values: TFModelInputType | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingtuple(tf.Tensor)

引數

  • pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]dict[str, tf.Tensor]dict[str, np.ndarray],並且每個樣本的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。畫素值可以使用 AutoImageProcessor 獲得。有關詳細資訊,請參閱 CLIPImageProcessor.call()
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的 `attentions`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的 `hidden_states`。此引數只能在即時模式下使用,在圖模式下將使用配置中的值。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在即時模式下使用,在圖模式下該值將始終設定為 True。
  • training (bool, 可選, 預設為 `False`) — 是否在訓練模式下使用模型(某些模組,如 dropout 模組,在訓練和評估之間有不同的行為)。

返回

transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingtuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或一個 `tf.Tensor` 元組(如果傳遞了 `return_dict=False` 或當 `config.return_dict=False` 時),包含各種元素,具體取決於配置 (`<class 'transformers.models.groupvit.configuration_groupvit.GroupViTVisionConfig'>`) 和輸入。

  • last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

  • pooler_output (tf.Tensor,形狀為 (batch_size, hidden_size)) — 序列第一個標記(分類標記)的最後一層隱藏狀態,經過線性層和 Tanh 啟用函式進一步處理。線性層權重是在預訓練期間透過下一句預測(分類)目標進行訓練的。

    此輸出通常不是輸入語義內容的良好摘要,通常最好對整個輸入序列的隱藏狀態進行平均或池化。

  • hidden_states (tuple(tf.Tensor), 可選, 當傳遞 `output_hidden_states=True` 或當 `config.output_hidden_states=True` 時返回) — `tf.Tensor` 的元組(一個用於嵌入的輸出 + 一個用於每層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態加上初始嵌入輸出。

  • attentions (tuple(tf.Tensor), 可選, 當傳遞 `output_attentions=True` 或當 `config.output_attentions=True` 時返回) — `tf.Tensor` 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

TFGroupViTVisionModel 的前向方法,重寫了 `__call__` 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 `Module` 例項而不是這個函式,因為前者會處理預處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, TFGroupViTVisionModel

>>> processor = AutoProcessor.from_pretrained("nvidia/groupvit-gcc-yfcc")
>>> model = TFGroupViTVisionModel.from_pretrained("nvidia/groupvit-gcc-yfcc")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(images=image, return_tensors="tf")

>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output  # pooled CLS states
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.