Transformers 文件

Blenderbot

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Blenderbot

PyTorch TensorFlow Flax FlashAttention SDPA

概述

Blender 聊天機器人模型由 Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston 於 2020 年 4 月 30 日在論文 《構建開放域聊天機器人的秘訣》 中提出。

論文摘要如下:

摘要內容:構建開放域聊天機器人是機器學習研究中一個具有挑戰性的領域。雖然先前的工作表明,擴大神經網路模型的引數數量和訓練資料規模可以改善結果,但我們發現,其他因素對於高效能聊天機器人同樣重要。良好的對話需要專家級對話者無縫融合多種技能:提供引人入勝的話題、傾聽對話夥伴、適當地展示知識、同理心和個性,同時保持一致的人格。我們證明,當給予適當的訓練資料和選擇合適的生成策略時,大規模模型可以學習這些技能。我們構建了具有 9000 萬、27 億和 94 億引數的變體模型,並公開了我們的模型和程式碼。人工評估顯示,在多輪對話中,我們的最佳模型在參與度和人性化方面優於現有方法。然後,我們透過分析模型的失敗案例來討論這項工作的侷限性。

此模型由 sshleifer 貢獻。作者的程式碼可以在 這裡 找到。

使用技巧和示例

Blenderbot 是一個使用絕對位置嵌入的模型,因此通常建議在輸入的右側而不是左側進行填充。

一個示例

>>> from transformers import BlenderbotTokenizer, BlenderbotForConditionalGeneration

>>> mname = "facebook/blenderbot-400M-distill"
>>> model = BlenderbotForConditionalGeneration.from_pretrained(mname)
>>> tokenizer = BlenderbotTokenizer.from_pretrained(mname)
>>> UTTERANCE = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer([UTTERANCE], return_tensors="pt")
>>> reply_ids = model.generate(**inputs)
>>> print(tokenizer.batch_decode(reply_ids))
["<s> That's unfortunate. Are they trying to lose weight or are they just trying to be healthier?</s>"]

實現說明

  • Blenderbot 使用標準的基於 seq2seq 模型 transformer 的架構。
  • 可用的檢查點可以在 模型中心 找到。
  • 這是*預設的* Blenderbot 模型類。然而,一些較小的檢查點,例如 `facebook/blenderbot_small_90M`,具有不同的架構,因此應與 BlenderbotSmall 一起使用。

資源

BlenderbotConfig

class transformers.BlenderbotConfig

< >

( vocab_size = 8008 max_position_embeddings = 128 encoder_layers = 2 encoder_ffn_dim = 10240 encoder_attention_heads = 32 decoder_layers = 24 decoder_ffn_dim = 10240 decoder_attention_heads = 32 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 use_cache = True is_encoder_decoder = True activation_function = 'gelu' d_model = 2560 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 decoder_start_token_id = 1 scale_embedding = False pad_token_id = 0 bos_token_id = 1 eos_token_id = 2 encoder_no_repeat_ngram_size = 3 forced_eos_token_id = 2 **kwargs )

引數

  • vocab_size (int, 可選, 預設為 50265) — Blenderbot 模型的詞彙表大小。定義了在呼叫 BlenderbotModelTFBlenderbotModel 時傳遞的 `inputs_ids` 可以表示的不同標記的數量。
  • d_model (int, 可選, 預設為 1024) — 層和池化層的維度。
  • encoder_layers (int, 可選, 預設為 12) — 編碼器層數。
  • decoder_layers (int, 可選, 預設為 12) — 解碼器層數。
  • encoder_attention_heads (int, 可選, 預設為 16) — Transformer 編碼器中每個注意力層的注意力頭數量。
  • decoder_attention_heads (int, 可選, 預設為 16) — Transformer 解碼器中每個注意力層的注意力頭數量。
  • decoder_ffn_dim (int, 可選, 預設為 4096) — 解碼器中“中間”層(通常稱為前饋層)的維度。
  • encoder_ffn_dim (int, 可選, 預設為 4096) — 解碼器中“中間”層(通常稱為前饋層)的維度。
  • activation_function (strfunction, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,支援 "gelu", "relu", "silu""gelu_new"
  • dropout (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化器中所有全連線層的丟棄機率。
  • attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的丟棄率。
  • activation_dropout (float, 可選, 預設為 0.0) — 全連線層內啟用函式的丟棄率。
  • max_position_embeddings (int, 可選, 預設為 128) — 此模型可能使用的最大序列長度。通常將其設定為一個較大的值以防萬一(例如 512、1024 或 2048)。
  • init_std (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
  • encoder_layerdrop (float, 可選, 預設為 0.0) — 編碼器的 LayerDrop 機率。更多細節請參閱 [LayerDrop 論文](https://huggingface.co/papers/1909.11556)。
  • decoder_layerdrop (float, 可選, 預設為 0.0) — 解碼器的 LayerDrop 機率。更多細節請參閱 [LayerDrop 論文](https://huggingface.co/papers/1909.11556)。
  • scale_embedding (bool, 可選, 預設為 False) — 是否透過除以 sqrt(d_model) 來縮放嵌入。
  • use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力(並非所有模型都使用)。
  • forced_eos_token_id (int, 可選, 預設為 2) — 當達到 `max_length` 時,強制作為最後生成標記的 ID。通常設定為 `eos_token_id`。

這是用於儲存 BlenderbotModel 配置的配置類。它用於根據指定的引數例項化一個 Blenderbot 模型,定義模型架構。使用預設值例項化配置將產生與 Blenderbot facebook/blenderbot-3B 架構類似的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。更多資訊請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import BlenderbotConfig, BlenderbotModel

>>> # Initializing a Blenderbot facebook/blenderbot-3B style configuration
>>> configuration = BlenderbotConfig()

>>> # Initializing a model (with random weights) from the facebook/blenderbot-3B style configuration
>>> model = BlenderbotModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

BlenderbotTokenizer

class transformers.BlenderbotTokenizer

< >

( vocab_file merges_file errors = 'replace' bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' add_prefix_space = False **kwargs )

引數

  • vocab_file (str) — 詞彙表文件的路徑。
  • merges_file (str) — merges 檔案的路徑。
  • errors (str, 可選, 預設為 "replace") — 將位元組解碼為 UTF-8 時遵循的正規化。有關更多資訊,請參閱 bytes.decode
  • bos_token (str, 可選, 預設為 "<s>") — 預訓練期間使用的序列開始標記。可用作序列分類器標記。

    使用特殊標記構建序列時,這不是用於序列開始的標記。使用的標記是 `cls_token`。

  • eos_token (str, 可選, 預設為 "</s>") — 序列結束標記。

    使用特殊標記構建序列時,這不是用於序列結束的標記。使用的標記是 `sep_token`。

  • sep_token (str, 可選, 預設為 "</s>") — 分隔符標記,用於從多個序列構建一個序列,例如,用於序列分類的兩個序列,或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
  • cls_token (str, 可選, 預設為 "<s>") — 分類器標記,用於進行序列分類(對整個序列進行分類,而不是對每個標記進行分類)。當使用特殊標記構建序列時,它是序列的第一個標記。
  • unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記無法轉換為 ID,而是被設定為此標記。
  • pad_token (str, 可選, 預設為 "<pad>") — 用於填充的標記,例如在批處理不同長度的序列時使用。
  • mask_token (str, 可選, 預設為 "<mask>") — 用於遮蔽值的標記。這是使用掩碼語言模型訓練此模型時使用的標記。這是模型將嘗試預測的標記。
  • add_prefix_space (bool, 可選, 預設為 False) — 是否在輸入前新增一個初始空格。這允許將首個單詞與其他任何單詞一樣處理。(Blenderbot tokenizer 透過前面的空格來檢測單詞的開頭)。

構建一個 Blenderbot 分詞器,它派生自 GPT-2 分詞器,使用位元組級位元組對編碼(Byte-Pair-Encoding)。

這個分詞器經過訓練,將空格視為詞元的一部分(有點像 sentencepiece),所以一個詞會

無論是否在句子開頭(無空格),編碼方式都會不同

>>> from transformers import BlenderbotTokenizer

>>> tokenizer = BlenderbotTokenizer.from_pretrained("facebook/blenderbot-3B")
>>> tokenizer.add_prefix_space = False
>>> tokenizer("Hello world")["input_ids"]
[47, 921, 86, 1085, 2]

>>> tokenizer(" Hello world")["input_ids"]
[6950, 1085, 2]

您可以透過在例項化此分詞器時或在對某些文字呼叫它時傳遞 add_prefix_space=True 來繞過此行為,但由於模型並非以這種方式進行預訓練,這可能會導致效能下降。

當與 is_split_into_words=True 一起使用時,此分詞器會在每個詞(甚至是第一個詞)之前新增一個空格。

該分詞器繼承自 PreTrainedTokenizer,其中包含了大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

< >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) list[int]

引數

  • token_ids_0 (list[int]) — 將要新增特殊標記的 ID 列表
  • token_ids_1 (list[int], 可選) — 將被忽略

返回

list[int]

包含適當特殊標記的 輸入 ID 列表。

透過連線和新增特殊標記,從一個序列或一對序列為序列分類任務構建模型輸入。Blenderbot 序列具有以下格式

  • 單個序列:X </s>

BlenderbotTokenizerFast

class transformers.BlenderbotTokenizerFast

< >

( vocab_file = None merges_file = None tokenizer_file = None errors = 'replace' bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' add_prefix_space = False trim_offsets = True **kwargs )

引數

  • vocab_file (str) — 詞彙表文件的路徑。
  • merges_file (str) — merges 檔案的路徑。
  • errors (str, 可選, 預設為 "replace") — 將位元組解碼為 UTF-8 時遵循的正規化。有關更多資訊,請參閱 bytes.decode
  • bos_token (str, 可選, 預設為 "<s>") — 預訓練期間使用的序列開始標記。可用作序列分類器標記。

    使用特殊標記構建序列時,這不是用於序列開始的標記。使用的標記是 `cls_token`。

  • eos_token (str, 可選, 預設為 "</s>") — 序列結束標記。

    使用特殊標記構建序列時,這不是用於序列結束的標記。使用的標記是 `sep_token`。

  • sep_token (str, 可選, 預設為 "</s>") — 分隔符標記,用於從多個序列構建一個序列,例如,用於序列分類的兩個序列,或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
  • cls_token (str, 可選, 預設為 "<s>") — 分類器標記,用於進行序列分類(對整個序列進行分類,而不是對每個標記進行分類)。當使用特殊標記構建序列時,它是序列的第一個標記。
  • unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記無法轉換為 ID,而是被設定為此標記。
  • pad_token (str, 可選, 預設為 "<pad>") — 用於填充的標記,例如在批處理不同長度的序列時使用。
  • mask_token (str, 可選, 預設為 "<mask>") — 用於遮蔽值的標記。這是使用掩碼語言模型訓練此模型時使用的標記。這是模型將嘗試預測的標記。
  • add_prefix_space (bool, 可選, 預設為 False) — 是否在輸入前新增一個初始空格。這允許將首個單詞與其他任何單詞一樣處理。(Blenderbot tokenizer 透過前面的空格來檢測單詞的開頭)。
  • trim_offsets (bool, 可選, 預設為 True) — 後處理步驟是否應修剪偏移量以避免包含空格。

構建一個“快速”的 Blenderbot 分詞器(由 HuggingFace 的 *tokenizers* 庫支援),它派生自 GPT-2 分詞器,使用位元組級位元組對編碼(Byte-Pair-Encoding)。

這個分詞器經過訓練,將空格視為詞元的一部分(有點像 sentencepiece),所以一個詞會

無論是否在句子開頭(無空格),編碼方式都會不同

>>> from transformers import BlenderbotTokenizerFast

>>> tokenizer = BlenderbotTokenizerFast.from_pretrained("facebook/blenderbot-3B")
>>> tokenizer("Hello world")["input_ids"]
[6950, 1085, 2]

>>> tokenizer(" Hello world")["input_ids"]
[6950, 1085, 2]

您可以透過在例項化此分詞器時或在對某些文字呼叫它時傳遞 add_prefix_space=True 來繞過此行為,但由於模型並非以這種方式進行預訓練,這可能會導致效能下降。

當與 is_split_into_words=True 一起使用時,此分詞器需要以 add_prefix_space=True 進行例項化。

該分詞器繼承自 PreTrainedTokenizerFast,其中包含了大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

< >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) list[int]

引數

  • token_ids_0 (list[int]) — 將要新增特殊標記的 ID 列表
  • token_ids_1 (list[int], 可選) — 將被忽略

返回

list[int]

包含適當特殊標記的 輸入 ID 列表。

透過連線和新增特殊標記,從一個序列或一對序列為序列分類任務構建模型輸入。Blenderbot 序列具有以下格式

  • 單個序列:X </s>
Pytorch
隱藏 Pytorch 內容

BlenderbotModel

有關 *forward* 和 *generate* 的引數,請參閱 BartModel

class transformers.BlenderbotModel

< >

( config: BlenderbotConfig )

引數

  • config (BlenderbotConfig) — 模型配置類,包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。

Blenderbot 基礎模型,輸出原始的隱藏狀態,頂部沒有任何特定的頭。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規的 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Union[tuple, transformers.modeling_outputs.BaseModelOutput, NoneType] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.Tensor] = None ) transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)

引數

  • input_ids (torch.LongTensor of shape (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下,填充將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (torch.Tensor of shape (batch_size, sequence_length), 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值在 `[0, 1]` 中選擇:

    • 1 表示標記未被遮蔽
    • 0 表示標記被遮蔽

    什麼是注意力掩碼?

  • decoder_input_ids (torch.LongTensor of shape (batch_size, target_sequence_length), 可選) — 詞彙表中解碼器輸入序列標記的索引。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入 ID?

    Blenderbot 使用 `bos_token_id` 作為生成 `decoder_input_ids` 的起始標記。如果使用 `past_key_values`,可以選擇只輸入最後一個 `decoder_input_ids`(請參閱 `past_key_values`)。

  • decoder_attention_mask (torch.LongTensor of shape (batch_size, target_sequence_length), 可選) — 預設行為:生成一個忽略 `decoder_input_ids` 中填充標記的張量。預設情況下也會使用因果掩碼。
  • head_mask (torch.Tensor of shape (num_heads,) or (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 `[0, 1]` 中選擇:

    • 1 表示頭部未被遮蔽
    • 0 表示頭部被遮蔽
  • decoder_head_mask (torch.Tensor of shape (decoder_layers, decoder_attention_heads), 可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值在 `[0, 1]` 中選擇:

    • 1 表示頭部未被遮蔽
    • 0 表示頭部被遮蔽
  • cross_attn_head_mask (torch.Tensor of shape (decoder_layers, decoder_attention_heads), 可選) — 用於使解碼器中交叉注意力模組的選定頭部無效的掩碼。掩碼值在 `[0, 1]` 中選擇:

    • 1 表示頭部未被遮蔽
    • 0 表示頭部被遮蔽
  • encoder_outputs (Union[tuple, ~modeling_outputs.BaseModelOutput, NoneType]) — 由 (`last_hidden_state`, *可選*: `hidden_states`, *可選*: `attentions`) 組成的元組。`last_hidden_state` 形狀為 `(batch_size, sequence_length, hidden_size)`,*可選*) 是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力。
  • past_key_values (list[torch.FloatTensor], 可選) — 預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於加速順序解碼。這通常包括在解碼的前一階段,當 `use_cache=True` 或 `config.use_cache=True` 時由模型返回的 `past_key_values`。

    允許兩種格式:

    • 一個 Cache 例項,請參閱我們的 kv 快取指南
    • 一個長度為 `config.n_layers` 的 `tuple(torch.FloatTensor)` 元組,每個元組有兩個形狀為 `(batch_size, num_heads, sequence_length, embed_size_per_head)` 的張量。這也稱為舊版快取格式。

    模型將輸出與輸入相同的快取格式。如果沒有傳遞 `past_key_values`,將返回舊版快取格式。

    如果使用 `past_key_values`,使用者可以選擇只輸入最後一個 `input_ids`(那些沒有為其提供過去鍵值狀態的 ID),形狀為 `(batch_size, 1)`,而不是所有形狀為 `(batch_size, sequence_length)` 的 `input_ids`。

  • inputs_embeds (torch.Tensor of shape (batch_size, sequence_length, hidden_size), 可選) — 或者,你可以選擇不傳遞 `input_ids`,而是直接傳遞一個嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 `input_ids` 索引轉換為相關向量,這將非常有用。
  • decoder_inputs_embeds (torch.FloatTensor of shape (batch_size, target_sequence_length, hidden_size), 可選) — 或者,你可以選擇不傳遞 `decoder_input_ids`,而是直接傳遞一個嵌入表示。如果使用 `past_key_values`,可以選擇只輸入最後一個 `decoder_inputs_embeds`(請參閱 `past_key_values`)。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 `decoder_input_ids` 索引轉換為相關向量,這將非常有用。

    如果 `decoder_input_ids` 和 `decoder_inputs_embeds` 都未設定,`decoder_inputs_embeds` 將取 `inputs_embeds` 的值。

  • use_cache (bool, 可選) — 如果設定為 `True`,則返回 `past_key_values` 鍵值狀態,可用於加速解碼(請參閱 `past_key_values`)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 `attentions`。
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 `hidden_states`。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
  • cache_position (torch.Tensor,形狀為 (sequence_length)可選) — 描述輸入序列中詞元位置的索引。與 position_ids 相反,此張量不受填充的影響。它用於在正確的位置更新快取並推斷完整的序列長度。

返回

transformers.modeling_outputs.Seq2SeqModelOutputtuple(torch.FloatTensor)

一個 transformers.modeling_outputs.Seq2SeqModelOutput 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(BlenderbotConfig)和輸入,包含各種元素。

  • last_hidden_state (torch.FloatTensor,形狀為 (batch_size, sequence_length, hidden_size)) — 模型解碼器最後一層輸出的隱藏狀態序列。

    如果使用了 past_key_values,則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。

  • past_key_values (EncoderDecoderCache可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情,請參閱我們的 kv 快取指南

    包含預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • decoder_hidden_states (tuple(torch.FloatTensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每一層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    解碼器在每個層輸出的隱藏狀態,加上可選的初始嵌入輸出。

  • decoder_attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

  • cross_attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。

  • encoder_last_hidden_state (torch.FloatTensor,形狀為 (batch_size, sequence_length, hidden_size)可選) — 模型編碼器最後一層輸出的隱藏狀態序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每一層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    編碼器在每個層輸出的隱藏狀態,加上可選的初始嵌入輸出。

  • encoder_attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

BlenderbotModel 的 forward 方法會覆蓋 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義,但之後應呼叫 Module 例項而不是此函式,因為前者會處理預處理和後處理步驟,而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, BlenderbotModel

>>> model = BlenderbotModel.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> inputs = tokenizer("Studies have been shown that owning a dog is good for you", return_tensors="pt")
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1
>>> outputs = model(input_ids=inputs.input_ids, decoder_input_ids=decoder_input_ids)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 6, 1280]

BlenderbotForConditionalGeneration

有關 forwardgenerate 的引數,請參閱 BartForConditionalGeneration

class transformers.BlenderbotForConditionalGeneration

< >

( config: BlenderbotConfig )

引數

  • config (BlenderbotConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化時,不會載入與模型關聯的權重,僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有語言模型頭的 Blenderbot 模型。可用於摘要任務。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規的 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Union[tuple, transformers.modeling_outputs.BaseModelOutput, NoneType] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.Tensor] = None ) transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

引數

  • input_ids (torch.LongTensor,形狀為 (batch_size, sequence_length)可選) — 詞彙表中輸入序列詞元的索引。預設情況下將忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (torch.Tensor,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充詞元索引執行注意力機制的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示詞元未被掩碼
    • 0 表示詞元被掩碼

    什麼是注意力掩碼?

  • decoder_input_ids (torch.LongTensor,形狀為 (batch_size, target_sequence_length)可選) — 詞彙表中解碼器輸入序列詞元的索引。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入 ID?

    Blenderbot 使用 bos_token_id 作為生成 decoder_input_ids 的起始詞元。如果使用 past_key_values,則可以選擇只輸入最後一個 decoder_input_ids(參見 past_key_values)。

  • decoder_attention_mask (torch.LongTensor,形狀為 (batch_size, target_sequence_length)可選) — 預設行為:生成一個忽略 decoder_input_ids 中填充詞元的張量。預設情況下也會使用因果掩碼。
  • head_mask (torch.Tensor,形狀為 (num_heads,)(num_layers, num_heads)可選) — 用於置零自注意力模組中選定頭的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示頭未被掩碼
    • 0 表示頭被掩碼
  • decoder_head_mask (torch.Tensor,形狀為 (decoder_layers, decoder_attention_heads)可選) — 用於置零解碼器中注意力模組選定頭的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示頭未被掩碼
    • 0 表示頭被掩碼
  • cross_attn_head_mask (torch.Tensor,形狀為 (decoder_layers, decoder_attention_heads)可選) — 用於置零解碼器中交叉注意力模組選定頭的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示頭未被掩碼
    • 0 表示頭被掩碼
  • encoder_outputs (Union[tuple, ~modeling_outputs.BaseModelOutput, NoneType]) — 由 (last_hidden_state, 可選: hidden_states, 可選: attentions) 組成的元組。last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size)可選)是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力機制。
  • past_key_values (list[torch.FloatTensor]可選) — 預計算的隱藏狀態(自注意力和交叉注意力塊中的鍵和值),可用於加速序列解碼。這通常是在解碼的先前階段,當 use_cache=Trueconfig.use_cache=True 時,由模型返回的 past_key_values

    允許兩種格式:

    • Cache 例項,請參閱我們的 kv 快取指南
    • 長度為 config.n_layerstuple(torch.FloatTensor) 的元組,每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為傳統快取格式。

    模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values,將返回傳統快取格式。

    如果使用 past_key_values,使用者可以選擇只輸入最後一個 input_ids(那些沒有提供其過去鍵值狀態給此模型的詞元),形狀為 (batch_size, 1),而不是所有形狀為 (batch_size, sequence_length)input_ids

  • inputs_embeds (torch.Tensor,形狀為 (batch_size, sequence_length, hidden_size)可選) — 可選地,你可以選擇直接傳遞嵌入表示,而不是傳遞 input_ids。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量,這將非常有用。
  • decoder_inputs_embeds (torch.FloatTensor,形狀為 (batch_size, target_sequence_length, hidden_size)可選) — 可選地,你可以選擇直接傳遞嵌入表示,而不是傳遞 decoder_input_ids。如果使用 past_key_values,則可以選擇只輸入最後一個 decoder_inputs_embeds(參見 past_key_values)。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 decoder_input_ids 索引轉換為關聯向量,這將非常有用。

    如果 decoder_input_idsdecoder_inputs_embeds 都未設定,decoder_inputs_embeds 將取 inputs_embeds 的值。

  • labels (torch.LongTensor,形狀為 (batch_size, sequence_length)可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間(參見 input_ids 的文件字串)。索引設定為 -100 的詞元將被忽略(掩碼),損失僅對標籤在 [0, ..., config.vocab_size] 中的詞元計算。
  • use_cache (bool可選) — 如果設定為 True,則返回 past_key_values 鍵值狀態,並可用於加速解碼(參見 past_key_values)。
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
  • cache_position (torch.Tensor,形狀為 (sequence_length)可選) — 描述輸入序列中詞元位置的索引。與 position_ids 相反,此張量不受填充的影響。它用於在正確的位置更新快取並推斷完整的序列長度。

返回

transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

一個 transformers.modeling_outputs.Seq2SeqLMOutput 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(BlenderbotConfig)和輸入,包含各種元素。

  • loss (torch.FloatTensor,形狀為 (1,)可選,當提供 labels 時返回) — 語言建模損失。

  • logits (形狀為 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。

  • past_key_values (EncoderDecoderCache可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情,請參閱我們的 kv 快取指南

    包含預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • decoder_hidden_states (tuple(torch.FloatTensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每一層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • decoder_attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

  • cross_attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。

  • encoder_last_hidden_state (torch.FloatTensor,形狀為 (batch_size, sequence_length, hidden_size)可選) — 模型編碼器最後一層輸出的隱藏狀態序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每一層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • encoder_attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

BlenderbotForConditionalGeneration 的 forward 方法會覆蓋 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義,但之後應呼叫 Module 例項而不是此函式,因為前者會處理預處理和後處理步驟,而後者會靜默忽略它們。

對話示例

>>> from transformers import AutoTokenizer, BlenderbotForConditionalGeneration

>>> mname = "facebook/blenderbot-400M-distill"
>>> model = BlenderbotForConditionalGeneration.from_pretrained(mname)
>>> tokenizer = AutoTokenizer.from_pretrained(mname)
>>> UTTERANCE = "My friends are cool but they eat too many carbs."
>>> print("Human: ", UTTERANCE)
Human:  My friends are cool but they eat too many carbs.

>>> inputs = tokenizer([UTTERANCE], return_tensors="pt")
>>> reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(reply_ids, skip_special_tokens=True)[0])
Bot: That's unfortunate. Are they trying to lose weight or are they just trying to be healthier?

>>> REPLY = "I'm not sure"
>>> print("Human: ", REPLY)
Human: I'm not sure

>>> NEXT_UTTERANCE = (
...     "My friends are cool but they eat too many carbs.</s> <s>That's unfortunate. "
...     "Are they trying to lose weight or are they just trying to be healthier?</s> "
...     "<s> I'm not sure."
... )
>>> inputs = tokenizer([NEXT_UTTERANCE], return_tensors="pt")
>>> next_reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(next_reply_ids, skip_special_tokens=True)[0])
Bot:   I see. Well, it's good that they're trying to change their eating habits.

BlenderbotForCausalLM

class transformers.BlenderbotForCausalLM

< >

( config )

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.CausalLMOutputWithCrossAttentionstuple(torch.FloatTensor)

引數

  • input_ids (torch.LongTensor,形狀為 (batch_size, sequence_length)可選) — 詞彙表中輸入序列詞元的索引。預設情況下將忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (torch.Tensor,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充詞元索引執行注意力機制的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示詞元未被掩碼
    • 0 表示詞元被掩碼

    什麼是注意力掩碼?

  • encoder_hidden_states (torch.FloatTensor,形狀為 (batch_size, sequence_length, hidden_size)可選) — 編碼器最後一層輸出的隱藏狀態序列。如果模型被配置為解碼器,則在交叉注意力中使用。
  • encoder_attention_mask (torch.FloatTensor,形狀為 (batch_size, sequence_length)可選) — 用於避免對編碼器輸入的填充詞元索引執行注意力機制的掩碼。如果模型被配置為解碼器,此掩碼在交叉注意力中使用。掩碼值在 [0, 1] 中選擇:

    • 1 表示詞元未被掩碼
    • 0 表示詞元被掩碼
  • head_mask (torch.Tensor,形狀為 (num_heads,)(num_layers, num_heads)可選) — 用於置零自注意力模組中選定頭的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示頭未被掩碼
    • 0 表示頭被掩碼
  • cross_attn_head_mask (torch.Tensor,形狀為 (decoder_layers, decoder_attention_heads)可選) — 用於置零交叉注意力模組中選定頭的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示頭未被掩碼
    • 0 表示頭被掩碼
  • past_key_values (list[torch.FloatTensor]可選) — 預計算的隱藏狀態(自注意力和交叉注意力塊中的鍵和值),可用於加速序列解碼。這通常是在解碼的先前階段,當 use_cache=Trueconfig.use_cache=True 時,由模型返回的 past_key_values

    允許兩種格式:

    • Cache 例項,請參閱我們的 kv 快取指南
    • 長度為 config.n_layerstuple(torch.FloatTensor) 的元組,每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為傳統快取格式。

    模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values,將返回傳統快取格式。

    如果使用 past_key_values,使用者可以選擇只輸入最後一個 input_ids(那些沒有提供其過去鍵值狀態給此模型的詞元),形狀為 (batch_size, 1),而不是所有形狀為 (batch_size, sequence_length)input_ids

  • inputs_embeds (torch.FloatTensor,形狀為 (batch_size, sequence_length, hidden_size)可選) — 可選地,你可以選擇直接傳遞嵌入表示,而不是傳遞 input_ids。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量,這將非常有用。
  • labels (torch.LongTensor,形狀為 (batch_size, sequence_length)可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間(參見 input_ids 的文件字串)。索引設定為 -100 的詞元將被忽略(掩碼),損失僅對標籤在 [0, ..., config.vocab_size] 中的詞元計算。
  • use_cache (bool可選) — 如果設定為 True,則返回 past_key_values 鍵值狀態,並可用於加速解碼(參見 past_key_values)。
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
  • cache_position (torch.LongTensor,形狀為 (sequence_length)可選) — 描述輸入序列中詞元位置的索引。與 position_ids 相反,此張量不受填充的影響。它用於在正確的位置更新快取並推斷完整的序列長度。

返回

transformers.modeling_outputs.CausalLMOutputWithCrossAttentionstuple(torch.FloatTensor)

一個 transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(BlenderbotConfig)和輸入,包含各種元素。

  • loss (torch.FloatTensor 形狀為 (1,)可選,當提供 labels 時返回) — 語言建模損失(用於下一個 token 預測)。

  • logits (形狀為 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。

  • hidden_states (tuple(torch.FloatTensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每一層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

  • cross_attentions (tuple(torch.FloatTensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的交叉注意力權重,用於計算交叉注意力頭中的加權平均。

  • past_key_values (Cache可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情,請參閱我們的 kv 快取指南

    包含預先計算的隱藏狀態(注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

BlenderbotForCausalLM 的 forward 方法會覆蓋 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義,但之後應呼叫 Module 例項而不是此函式,因為前者會處理預處理和後處理步驟,而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, BlenderbotForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")
>>> model = BlenderbotForCausalLM.from_pretrained("facebook/blenderbot-400M-distill", add_cross_attention=False)
>>> assert model.config.is_decoder, f"{model.__class__} has to be configured as a decoder."
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> logits = outputs.logits
>>> expected_shape = [1, inputs.input_ids.shape[-1], model.config.vocab_size]
>>> list(logits.shape) == expected_shape
True
TensorFlow
隱藏 TensorFlow 內容

TFBlenderbotModel

class transformers.TFBlenderbotModel

< >

( config: BlenderbotConfig *inputs **kwargs )

引數

  • config (BlenderbotConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化時,不會載入與模型關聯的權重,僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

基礎 BLENDERBOT 模型,輸出原始隱藏狀態,頂部沒有任何特定的頭。此模型繼承自 TFPreTrainedModel。請檢視超類的文件,瞭解庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭等)。

此模型也是 keras.Model 的子類。可以像常規的 TF 2.0 Keras 模型一樣使用它,並參考 TF 2.0 文件瞭解所有與常規用法和行為相關的事項。

transformers 中的 TensorFlow 模型和層接受兩種輸入格式

  • 所有輸入作為關鍵字引數(如 PyTorch 模型),或
  • 所有輸入作為第一個位置引數中的列表、元組或字典。

支援第二種格式的原因是,Keras 方法在向模型和層傳遞輸入時更喜歡這種格式。由於這種支援,當使用像 model.fit() 這樣的方法時,事情應該“自然而然”地為你工作——只需以 model.fit() 支援的任何格式傳遞你的輸入和標籤!但是,如果你想在 Keras 方法(如 fit()predict())之外使用第二種格式,例如在使用 Keras Functional API 建立自己的層或模型時,有三種可能性可以將所有輸入張量收集到第一個位置引數中

  • 只有一個 input_ids 的單個張量,沒有其他:model(input_ids)
  • 長度可變的列表,包含一個或多個輸入張量,按文件字串中給出的順序:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 一個字典,其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

請注意,在使用 子類化 建立模型和層時,你無需擔心任何這些問題,因為你可以像呼叫任何其他 Python 函式一樣傳遞輸入!

呼叫

< >

( input_ids: tf.Tensor | None = None attention_mask: tf.Tensor | None = None decoder_input_ids: tf.Tensor | None = None decoder_attention_mask: tf.Tensor | None = None decoder_position_ids: tf.Tensor | None = None head_mask: tf.Tensor | None = None decoder_head_mask: tf.Tensor | None = None cross_attn_head_mask: tf.Tensor | None = None encoder_outputs: Optional[Union[tuple, TFBaseModelOutput]] = None past_key_values: list[tf.Tensor] | None = None inputs_embeds: tf.Tensor | None = None decoder_inputs_embeds: tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False **kwargs ) transformers.modeling_tf_outputs.TFSeq2SeqModelOutputtuple(tf.Tensor)

引數

  • input_ids (tf.Tensor,形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (tf.Tensor,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充標記索引執行注意力機制的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示標記未被遮蔽
    • 0 表示標記已被遮蔽

    什麼是注意力掩碼?

  • decoder_input_ids (tf.Tensor,形狀為 (batch_size, target_sequence_length)可選) — 詞彙表中解碼器輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入 ID?

    Blenderbot 使用 bos_token_id 作為生成 decoder_input_ids 的起始標記。如果使用 past_key_values,可以選擇只輸入最後一個 decoder_input_ids(請參閱 past_key_values)。

  • decoder_attention_mask (tf.Tensor,形狀為 (batch_size, target_sequence_length)可選) — 預設情況下會建立並忽略填充標記。在大多數用例中不建議設定此項。
  • decoder_position_ids (tf.Tensor,形狀為 (batch_size, sequence_length)可選) — 每個解碼器輸入序列標記在位置嵌入中的位置索引。選擇範圍在 [0, config.max_position_embeddings - 1] 內。
  • head_mask (tf.Tensor,形狀為 (encoder_layers, encoder_attention_heads)可選) — 用於使編碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示頭未被遮蔽
    • 0 表示頭已被遮蔽
  • decoder_head_mask (tf.Tensor,形狀為 (decoder_layers, decoder_attention_heads)可選) — 用於使解碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示頭未被遮蔽
    • 0 表示頭已被遮蔽
  • cross_attn_head_mask (tf.Tensor,形狀為 (decoder_layers, decoder_attention_heads)可選) — 用於使交叉注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示頭未被遮蔽
    • 0 表示頭已被遮蔽
  • encoder_outputs (tf.FloatTensor可選) — 編碼器最後一層的輸出隱藏狀態。用於解碼器的交叉注意力機制。形狀為 (batch_size, sequence_length, hidden_size) 的序列。
  • past_key_values (長度為 config.n_layerstuple[tuple[tf.Tensor]]) — 包含預先計算的注意力塊的鍵和值隱藏狀態。可用於加速解碼。如果使用了 past_key_values,使用者可以選擇只輸入最後一個形狀為 (batch_size, 1)decoder_input_ids(那些沒有提供給此模型其過去鍵值狀態的 ID),而不是所有形狀為 (batch_size, sequence_length)decoder_input_ids
  • use_cache (bool可選,預設為 True) — 如果設定為 True,將返回 past_key_values 鍵值狀態,可用於加速解碼(請參閱 past_key_values)。訓練時設定為 False,生成時設定為 True
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions。此引數只能在 Eager 模式下使用,在圖模式下將使用配置中的值。
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states。此引數只能在 Eager 模式下使用,在圖模式下將使用配置中的值。
  • return_dict (bool可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在 Eager 模式下使用,在圖模式下該值將始終設定為 True。
  • training (bool可選,預設為 False) — 是否在訓練模式下使用模型(某些模組如 dropout 模組在訓練和評估之間有不同的行為)。

返回

transformers.modeling_tf_outputs.TFSeq2SeqModelOutputtuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或一個 tf.Tensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(BlenderbotConfig)和輸入,包含各種元素。

  • last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)tf.Tensor) — 模型解碼器最後一層輸出的隱藏狀態序列。

    如果使用了 past_key_values,則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。

  • past_key_values (list[tf.Tensor]可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layerstf.Tensor 列表,每個張量的形狀為 (2, batch_size, num_heads, sequence_length, embed_size_per_head))。

    包含解碼器注意力塊的預計算隱藏狀態(鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • decoder_hidden_states (tuple(tf.Tensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組(一個用於嵌入層的輸出 + 一個用於每層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • decoder_attentions (tuple(tf.Tensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

  • cross_attentions (tuple(tf.Tensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。

  • encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)tf.Tensor, 可選) — 模型編碼器最後一層輸出的隱藏狀態序列。

  • encoder_hidden_states (tuple(tf.Tensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組(一個用於嵌入層的輸出 + 一個用於每層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • encoder_attentions (tuple(tf.Tensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

TFBlenderbotModel 的前向方法,重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義,但之後應呼叫 Module 例項而不是此函式,因為前者會處理預處理和後處理步驟,而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, TFBlenderbotModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")
>>> model = TFBlenderbotModel.from_pretrained("facebook/blenderbot-400M-distill")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFBlenderbotForConditionalGeneration

class transformers.TFBlenderbotForConditionalGeneration

< >

( config *inputs **kwargs )

引數

  • config (BlenderbotConfig) — 模型配置類,包含模型的所有引數。使用配置檔案進行初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有語言建模頭的 BLENDERBOT 模型。可用於摘要任務。該模型繼承自 TFPreTrainedModel。請檢視超類文件,瞭解該庫為其所有模型實現的通用方法(如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是 keras.Model 的子類。可以像常規的 TF 2.0 Keras 模型一樣使用它,並參考 TF 2.0 文件瞭解所有與常規用法和行為相關的事項。

transformers 中的 TensorFlow 模型和層接受兩種輸入格式

  • 所有輸入作為關鍵字引數(如 PyTorch 模型),或
  • 所有輸入作為第一個位置引數中的列表、元組或字典。

支援第二種格式的原因是,Keras 方法在向模型和層傳遞輸入時更喜歡這種格式。由於這種支援,當使用像 model.fit() 這樣的方法時,事情應該“自然而然”地為你工作——只需以 model.fit() 支援的任何格式傳遞你的輸入和標籤!但是,如果你想在 Keras 方法(如 fit()predict())之外使用第二種格式,例如在使用 Keras Functional API 建立自己的層或模型時,有三種可能性可以將所有輸入張量收集到第一個位置引數中

  • 只有一個 input_ids 的單個張量,沒有其他:model(input_ids)
  • 長度可變的列表,包含一個或多個輸入張量,按文件字串中給出的順序:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 一個字典,其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

請注意,在使用 子類化 建立模型和層時,你無需擔心任何這些問題,因為你可以像呼叫任何其他 Python 函式一樣傳遞輸入!

呼叫

< >

( input_ids: tf.Tensor | None = None attention_mask: tf.Tensor | None = None decoder_input_ids: tf.Tensor | None = None decoder_attention_mask: tf.Tensor | None = None decoder_position_ids: tf.Tensor | None = None head_mask: tf.Tensor | None = None decoder_head_mask: tf.Tensor | None = None cross_attn_head_mask: tf.Tensor | None = None encoder_outputs: Optional[Union[tuple, TFBaseModelOutput]] = None past_key_values: list[tf.Tensor] | None = None inputs_embeds: tf.Tensor | None = None decoder_inputs_embeds: tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: tf.Tensor | None = None training: Optional[bool] = False ) transformers.modeling_tf_outputs.TFSeq2SeqLMOutputtuple(tf.Tensor)

引數

  • input_ids (tf.Tensor,形狀為 ({0})) — 詞彙表中輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (tf.Tensor,形狀為 ({0})可選) — 用於避免對填充標記索引執行注意力機制的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示標記未被遮蔽
    • 0 表示標記已被遮蔽

    什麼是注意力掩碼?

  • decoder_input_ids (tf.Tensor,形狀為 (batch_size, target_sequence_length)可選) — 詞彙表中解碼器輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入 ID?

    Blenderbot 使用 bos_token_id 作為生成 decoder_input_ids 的起始標記。如果使用 past_key_values,可以選擇只輸入最後一個 decoder_input_ids(請參閱 past_key_values)。

  • decoder_attention_mask (tf.Tensor,形狀為 (batch_size, target_sequence_length)可選) — 預設情況下會建立並忽略填充標記。在大多數用例中不建議設定此項。
  • decoder_position_ids (tf.Tensor,形狀為 (batch_size, sequence_length)可選) — 每個解碼器輸入序列標記在位置嵌入中的位置索引。選擇範圍在 [0, config.max_position_embeddings - 1] 內。
  • head_mask (tf.Tensor,形狀為 (encoder_layers, encoder_attention_heads)可選) — 用於使編碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示頭未被遮蔽
    • 0 表示頭已被遮蔽
  • decoder_head_mask (tf.Tensor,形狀為 (decoder_layers, decoder_attention_heads)可選) — 用於使解碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示頭未被遮蔽
    • 0 表示頭已被遮蔽
  • cross_attn_head_mask (tf.Tensor,形狀為 (decoder_layers, decoder_attention_heads)可選) — 用於使交叉注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示頭未被遮蔽
    • 0 表示頭已被遮蔽
  • encoder_outputs (tf.FloatTensor可選) — 編碼器最後一層的輸出隱藏狀態。用於解碼器的交叉注意力機制。形狀為 (batch_size, sequence_length, hidden_size) 的序列。
  • past_key_values (長度為 config.n_layerstuple[tuple[tf.Tensor]]) — 包含預先計算的注意力塊的鍵和值隱藏狀態。可用於加速解碼。如果使用了 past_key_values,使用者可以選擇只輸入最後一個形狀為 (batch_size, 1)decoder_input_ids(那些沒有提供給此模型其過去鍵值狀態的 ID),而不是所有形狀為 (batch_size, sequence_length)decoder_input_ids
  • use_cache (bool可選,預設為 True) — 如果設定為 True,將返回 past_key_values 鍵值狀態,可用於加速解碼(請參閱 past_key_values)。訓練時設定為 False,生成時設定為 True
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions。此引數只能在 Eager 模式下使用,在圖模式下將使用配置中的值。
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states。此引數只能在 Eager 模式下使用,在圖模式下將使用配置中的值。
  • return_dict (bool可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在 Eager 模式下使用,在圖模式下該值將始終設定為 True。
  • training (bool可選,預設為 False) — 是否在訓練模式下使用模型(某些模組如 dropout 模組在訓練和評估之間有不同的行為)。
  • labels (tf.tensor,形狀為 (batch_size, sequence_length)可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間(請參閱 input_ids 文件字串)。索引設定為 -100 的標記將被忽略(遮蔽),損失僅對標籤在 [0, ..., config.vocab_size] 內的標記計算。

返回

transformers.modeling_tf_outputs.TFSeq2SeqLMOutputtuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或一個 tf.Tensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(BlenderbotConfig)和輸入,包含各種元素。

  • loss (形狀為 (n,)tf.Tensor, 可選, 其中 n 是非掩碼標籤的數量,當提供 labels 時返回) — 語言建模損失。

  • logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數(SoftMax 之前每個詞彙標記的分數)。

  • past_key_values (list[tf.Tensor]可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layerstf.Tensor 列表,每個張量的形狀為 (2, batch_size, num_heads, sequence_length, embed_size_per_head))。

    包含解碼器注意力塊的預計算隱藏狀態(鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • decoder_hidden_states (tuple(tf.Tensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組(一個用於嵌入層的輸出 + 一個用於每層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • decoder_attentions (tuple(tf.Tensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

  • cross_attentions (tuple(tf.Tensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。

  • encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)tf.Tensor, 可選) — 模型編碼器最後一層輸出的隱藏狀態序列。

  • encoder_hidden_states (tuple(tf.Tensor)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組(一個用於嵌入層的輸出 + 一個用於每層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • encoder_attentions (tuple(tf.Tensor)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

TFBlenderbotForConditionalGeneration 的前向方法,重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義,但之後應呼叫 Module 例項而不是此函式,因為前者會處理預處理和後處理步驟,而後者會靜默忽略它們。

對話示例:

>>> from transformers import AutoTokenizer, TFBlenderbotForConditionalGeneration

>>> mname = "facebook/blenderbot-400M-distill"
>>> model = TFBlenderbotForConditionalGeneration.from_pretrained(mname)
>>> tokenizer = AutoTokenizer.from_pretrained(mname)
>>> UTTERANCE = "My friends are cool but they eat too many carbs."
>>> print("Human: ", UTTERANCE)

>>> inputs = tokenizer([UTTERANCE], return_tensors="tf")
>>> reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(reply_ids, skip_special_tokens=True)[0])

>>> REPLY = "I'm not sure"
>>> print("Human: ", REPLY)
>>> NEXT_UTTERANCE = (
...     "My friends are cool but they eat too many carbs.</s> <s>That's unfortunate. "
...     "Are they trying to lose weight or are they just trying to be healthier?</s> "
...     "<s> I'm not sure."
... )
>>> inputs = tokenizer([NEXT_UTTERANCE], return_tensors="tf")
>>> next_reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(next_reply_ids, skip_special_tokens=True)[0])
JAX
隱藏 JAX 內容

FlaxBlenderbotModel

class transformers.FlaxBlenderbotModel

< >

( config: BlenderbotConfig input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

引數

  • config (BlenderbotConfig) — 模型配置類,包含模型的所有引數。使用配置檔案進行初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

裸 MBart 模型轉換器,輸出原始隱藏狀態,頂部沒有任何特定的頭。該模型繼承自 FlaxPreTrainedModel。請檢視超類文件,瞭解該庫為其所有模型實現的通用方法(如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是一個 Flax Linen flax.nn.Module 的子類。請將其作為常規的 Flax 模組使用,並參考 Flax 文件瞭解所有與一般用法和行為相關的事項。

最後,此模型支援固有的 JAX 功能,例如

__call__

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutputtuple(torch.FloatTensor)

引數

  • input_ids (jnp.ndarray,形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。如果您提供填充,預設情況下將被忽略。

    索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (jnp.ndarray,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充標記索引執行注意力機制的掩碼。掩碼值的選擇範圍為 [0, 1]

    • 1 表示標記未被遮蔽
    • 0 表示標記已被遮蔽

    什麼是注意力掩碼?

  • decoder_input_ids (jnp.ndarray,形狀為 (batch_size, target_sequence_length)可選) — 詞彙表中解碼器輸入序列標記的索引。

    索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入 ID?

    對於翻譯和摘要訓練,應提供 decoder_input_ids。如果未提供 decoder_input_ids,模型將根據論文中的去噪預訓練方法,透過將 input_ids 右移來建立此張量。

  • decoder_attention_mask (jnp.ndarray,形狀為 (batch_size, target_sequence_length)可選) — 預設行為:生成一個忽略 decoder_input_ids 中填充標記的張量。預設情況下也會使用因果掩碼。

    如果你想改變填充行為,你應該根據你的需要進行修改。有關預設策略的更多資訊,請參閱論文中的圖 1。

  • position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 每個輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • decoder_position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 每個解碼器輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutputtuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutput 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(BlenderbotConfig)和輸入,包含不同的元素。

  • last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)jnp.ndarray) — 模型解碼器最後一層輸出的隱藏狀態序列。

    如果使用了 past_key_values,則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。

  • past_key_values (tuple(tuple(jnp.ndarray))可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layerstuple(jnp.ndarray) 元組,每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量,以及 2 個額外的形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。

    包含預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • decoder_hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • decoder_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

  • cross_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。

  • encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)jnp.ndarray可選) — 模型編碼器最後一層輸出的隱藏狀態序列。

  • encoder_hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • encoder_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

FlaxBlenderbotPreTrainedModel 的前向方法,重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義,但之後應呼叫 Module 例項而不是此函式,因為前者會處理預處理和後處理步驟,而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, FlaxBlenderbotModel

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")
>>> model = FlaxBlenderbotModel.from_pretrained("facebook/blenderbot-400M-distill")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="jax")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

編碼

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

引數

  • input_ids (jnp.ndarray,形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列詞元的索引。如果您提供填充,預設情況下將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (jnp.ndarray,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未被遮蔽的詞元,
    • 0 表示被遮蔽的詞元。

    什麼是注意力掩碼?

  • position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 每個輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(<class 'transformers.models.blenderbot.configuration_blenderbot.BlenderbotConfig'>)和輸入,包含不同的元素。

  • last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)jnp.ndarray) — 模型最後一層輸出的隱藏狀態序列。

  • hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態加上初始嵌入輸出。

  • attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

示例

>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="jax")
>>> encoder_outputs = model.encode(**inputs)

decode

< >

( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None past_key_values: typing.Optional[dict] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentionstuple(torch.FloatTensor)

引數

  • decoder_input_ids (jnp.ndarray,形狀為 (batch_size, target_sequence_length)) — 詞彙表中解碼器輸入序列詞元的索引。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入 ID?

    對於翻譯和摘要訓練,應提供 decoder_input_ids。如果未提供 decoder_input_ids,模型將透過將 input_ids 右移來建立此張量,以進行論文中描述的去噪預訓練。

  • encoder_outputs (tuple(tuple(jnp.ndarray)) — 元組包含(last_hidden_state可選hidden_states可選attentionslast_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size)可選)是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力中。
  • encoder_attention_mask (jnp.ndarray,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未被遮蔽的詞元,
    • 0 表示被遮蔽的詞元。

    什麼是注意力掩碼?

  • decoder_attention_mask (jnp.ndarray,形狀為 (batch_size, target_sequence_length)可選) — 預設行為:生成一個忽略 decoder_input_ids 中填充詞元的張量。預設情況下也會使用因果掩碼。

    如果要更改填充行為,應根據需要進行修改。有關預設策略的更多資訊,請參閱論文中的圖 1。

  • decoder_position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 每個解碼器輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • past_key_values (dict[str, np.ndarray]可選,由 init_cache 返回或在傳遞先前的 past_key_values 時返回) — 預先計算的隱藏狀態字典(注意力塊中的鍵和值),可用於快速自迴歸解碼。預先計算的鍵和值隱藏狀態的形狀為 [batch_size, max_length]
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentionstuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(<class 'transformers.models.blenderbot.configuration_blenderbot.BlenderbotConfig'>)和輸入,包含不同的元素。

  • last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)jnp.ndarray) — 模型最後一層輸出的隱藏狀態序列。

    如果使用了 past_key_values,則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。

  • past_key_values (tuple(tuple(jnp.ndarray))可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layerstuple(jnp.ndarray) 元組,每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量,如果 config.is_encoder_decoder=True,則還包含 2 個額外的形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。

    包含預先計算的隱藏狀態(自注意力塊中的鍵和值,如果 config.is_encoder_decoder=True,則還包含交叉注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速序列解碼。

  • hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態加上初始嵌入輸出。

  • attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

  • cross_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=Trueconfig.add_cross_attention=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。

示例

>>> import jax.numpy as jnp
>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="jax")
>>> encoder_outputs = model.encode(**inputs)

>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id

>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> last_decoder_hidden_states = outputs.last_hidden_state

FlaxBlenderbotForConditionalGeneration

class transformers.FlaxBlenderbotForConditionalGeneration

< >

( config: BlenderbotConfig input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

引數

  • config (BlenderbotConfig) — 模型配置類,包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重,僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有語言建模頭的 Blenderbot 模型。可用於摘要生成。該模型繼承自 FlaxPreTrainedModel。請檢視超類文件,瞭解庫為其所有模型實現的通用方法(如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是一個 Flax Linen flax.nn.Module 的子類。請將其作為常規的 Flax 模組使用,並參考 Flax 文件瞭解所有與一般用法和行為相關的事項。

最後,此模型支援固有的 JAX 功能,例如

__call__

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

引數

  • input_ids (jnp.ndarray,形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列詞元的索引。如果您提供填充,預設情況下將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (jnp.ndarray,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未被遮蔽的詞元,
    • 0 表示被遮蔽的詞元。

    什麼是注意力掩碼?

  • decoder_input_ids (jnp.ndarray,形狀為 (batch_size, target_sequence_length)可選) — 詞彙表中解碼器輸入序列詞元的索引。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入 ID?

    對於翻譯和摘要訓練,應提供 decoder_input_ids。如果未提供 decoder_input_ids,模型將透過將 input_ids 右移來建立此張量,以進行論文中描述的去噪預訓練。

  • decoder_attention_mask (jnp.ndarray,形狀為 (batch_size, target_sequence_length)可選) — 預設行為:生成一個忽略 decoder_input_ids 中填充詞元的張量。預設情況下也會使用因果掩碼。

    如果要更改填充行為,應根據需要進行修改。有關預設策略的更多資訊,請參閱論文中的圖 1。

  • position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 每個輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • decoder_position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 每個解碼器輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(BlenderbotConfig)和輸入,包含不同的元素。

  • logits (形狀為 (batch_size, sequence_length, config.vocab_size)jnp.ndarray) — 語言建模頭的預測分數(SoftMax 之前每個詞彙 token 的分數)。

  • past_key_values (tuple(tuple(jnp.ndarray))可選,當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layerstuple(jnp.ndarray) 元組,每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量,以及 2 個額外的形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。

    包含預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • decoder_hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • decoder_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

  • cross_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。

  • encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)jnp.ndarray可選) — 模型編碼器最後一層輸出的隱藏狀態序列。

  • encoder_hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。

  • encoder_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。

FlaxBlenderbotPreTrainedModel 的前向方法,重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義,但之後應呼叫 Module 例項而不是此函式,因為前者會處理預處理和後處理步驟,而後者會靜默忽略它們。

對話示例:

>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> UTTERANCE = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer([UTTERANCE], max_length=1024, return_tensors="np")

>>> # Generate Reply
>>> reply_ids = model.generate(inputs["input_ids"], num_beams=4, max_length=5, early_stopping=True).sequences
>>> print([tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in reply_ids])

編碼

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

引數

  • input_ids (jnp.ndarray,形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列詞元的索引。如果您提供填充,預設情況下將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (jnp.ndarray,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未被遮蔽的詞元,
    • 0 表示被遮蔽的詞元。

    什麼是注意力掩碼?

  • position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 位置嵌入中每個輸入序列詞元的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),根據配置(<class 'transformers.models.blenderbot.configuration_blenderbot.BlenderbotConfig'>)和輸入,包含不同的元素。

  • last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size)jnp.ndarray) — 模型最後一層輸出的隱藏狀態序列。

  • hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態加上初始嵌入輸出。

  • attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

示例

>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="jax")
>>> encoder_outputs = model.encode(**inputs)

decode

< >

( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None past_key_values: typing.Optional[dict] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentionstuple(torch.FloatTensor)

引數

  • decoder_input_ids (jnp.ndarray,形狀為 (batch_size, target_sequence_length)) — 解碼器輸入序列在詞彙表中的詞元索引。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是解碼器輸入ID?

    對於翻譯和摘要訓練,應提供 decoder_input_ids。如果未提供 decoder_input_ids,模型將根據論文的描述,透過將 input_ids 右移來建立此張量,以進行去噪預訓練。

  • encoder_outputs (tuple(tuple(jnp.ndarray)) — 元組,包含 (last_hidden_state, 可選: hidden_states, 可選: attentions) last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size)可選) 是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力機制。
  • encoder_attention_mask (jnp.ndarray,形狀為 (batch_size, sequence_length)可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇:

    • 1 表示未被掩碼的詞元,
    • 0 表示被掩碼的詞元。

    什麼是注意力掩碼?

  • decoder_attention_mask (jnp.ndarray,形狀為 (batch_size, target_sequence_length)可選) — 預設行為:生成一個忽略 decoder_input_ids 中填充詞元的張量。預設情況下也會使用因果掩碼。

    如果你想改變填充行為,應根據需要進行修改。有關預設策略的更多資訊,請參閱論文中的圖 1。

  • decoder_position_ids (numpy.ndarray,形狀為 (batch_size, sequence_length)可選) — 位置嵌入中每個解碼器輸入序列詞元的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]
  • past_key_values (dict[str, np.ndarray]可選,由 init_cache 返回或在傳遞先前的 past_key_values 時返回) — 包含預計算的隱藏狀態(注意力塊中的鍵和值)的字典,可用於快速自迴歸解碼。預計算的鍵和值隱藏狀態的形狀為 [batch_size, max_length]
  • output_attentions (bool可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • return_dict (bool可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

返回

transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentionstuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或一個 torch.FloatTensor 的元組(如果傳遞了 return_dict=False 或當 config.return_dict=False 時),包含各種元素,具體取決於配置 (<class 'transformers.models.blenderbot.configuration_blenderbot.BlenderbotConfig'>) 和輸入。

  • logits (形狀為 (batch_size, sequence_length, config.vocab_size)jnp.ndarray) — 語言建模頭的預測分數(SoftMax 之前每個詞彙 token 的分數)。

  • hidden_states (tuple(jnp.ndarray)可選,當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組(一個用於嵌入層的輸出,一個用於每個層的輸出),形狀為 (batch_size, sequence_length, hidden_size)

    模型在每個層輸出的隱藏狀態加上初始嵌入輸出。

  • attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

  • cross_attentions (tuple(jnp.ndarray)可選,當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組(每層一個),形狀為 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 後的交叉注意力權重,用於計算交叉注意力頭中的加權平均。

  • past_key_values (tuple(tuple(jnp.ndarray))可選,當傳遞 use_cache=Trueconfig.use_cache=True 時返回) — 長度為 config.n_layersjnp.ndarray 元組的元組,每個元組包含自注意力和交叉注意力層的快取鍵、值狀態(如果模型在編碼器-解碼器設定中使用)。僅當 config.is_decoder = True 時相關。

    包含預先計算的隱藏狀態(注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

示例

>>> import jax.numpy as jnp
>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="jax")
>>> encoder_outputs = model.encode(**inputs)

>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id

>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.