Transformers

( vocab_file merges_file errors = 'replace' bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' add_prefix_space = False **kwargs )

引數

vocab_file (str) — 詞彙表文件的路徑。
merges_file (str) — merges 檔案的路徑。
errors (str, 可選, 預設為 "replace") — 將位元組解碼為 UTF-8 時遵循的正規化。有關更多資訊，請參閱 bytes.decode。
bos_token (str, 可選, 預設為 "<s>") — 預訓練期間使用的序列開始標記。可用作序列分類器標記。

使用特殊標記構建序列時，這不是用於序列開始的標記。使用的標記是 `cls_token`。
eos_token (str, 可選, 預設為 "</s>") — 序列結束標記。

使用特殊標記構建序列時，這不是用於序列結束的標記。使用的標記是 `sep_token`。
sep_token (str, 可選, 預設為 "</s>") — 分隔符標記，用於從多個序列構建一個序列，例如，用於序列分類的兩個序列，或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
cls_token (str, 可選, 預設為 "<s>") — 分類器標記，用於進行序列分類（對整個序列進行分類，而不是對每個標記進行分類）。當使用特殊標記構建序列時，它是序列的第一個標記。
unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記無法轉換為 ID，而是被設定為此標記。
pad_token (str, 可選, 預設為 "<pad>") — 用於填充的標記，例如在批處理不同長度的序列時使用。
mask_token (str, 可選, 預設為 "<mask>") — 用於遮蔽值的標記。這是使用掩碼語言模型訓練此模型時使用的標記。這是模型將嘗試預測的標記。
add_prefix_space (bool, 可選, 預設為 False) — 是否在輸入前新增一個初始空格。這允許將首個單詞與其他任何單詞一樣處理。（Blenderbot tokenizer 透過前面的空格來檢測單詞的開頭）。

構建一個 Blenderbot 分詞器，它派生自 GPT-2 分詞器，使用位元組級位元組對編碼（Byte-Pair-Encoding）。

這個分詞器經過訓練，將空格視為詞元的一部分（有點像 sentencepiece），所以一個詞會

無論是否在句子開頭（無空格），編碼方式都會不同

>>> from transformers import BlenderbotTokenizer

>>> tokenizer = BlenderbotTokenizer.from_pretrained("facebook/blenderbot-3B")
>>> tokenizer.add_prefix_space = False
>>> tokenizer("Hello world")["input_ids"]
[47, 921, 86, 1085, 2]

>>> tokenizer(" Hello world")["input_ids"]
[6950, 1085, 2]

您可以透過在例項化此分詞器時或在對某些文字呼叫它時傳遞 add_prefix_space=True 來繞過此行為，但由於模型並非以這種方式進行預訓練，這可能會導致效能下降。

當與 is_split_into_words=True 一起使用時，此分詞器會在每個詞（甚至是第一個詞）之前新增一個空格。

該分詞器繼承自 PreTrainedTokenizer，其中包含了大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 將要新增特殊標記的 ID 列表
token_ids_1 (list[int], 可選) — 將被忽略

list[int]

包含適當特殊標記的輸入 ID 列表。

透過連線和新增特殊標記，從一個序列或一對序列為序列分類任務構建模型輸入。Blenderbot 序列具有以下格式

單個序列：X </s>

BlenderbotTokenizerFast

class transformers.BlenderbotTokenizerFast

( vocab_file = None merges_file = None tokenizer_file = None errors = 'replace' bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' add_prefix_space = False trim_offsets = True **kwargs )

引數

vocab_file (str) — 詞彙表文件的路徑。
merges_file (str) — merges 檔案的路徑。
errors (str, 可選, 預設為 "replace") — 將位元組解碼為 UTF-8 時遵循的正規化。有關更多資訊，請參閱 bytes.decode。
bos_token (str, 可選, 預設為 "<s>") — 預訓練期間使用的序列開始標記。可用作序列分類器標記。

使用特殊標記構建序列時，這不是用於序列開始的標記。使用的標記是 `cls_token`。
eos_token (str, 可選, 預設為 "</s>") — 序列結束標記。

使用特殊標記構建序列時，這不是用於序列結束的標記。使用的標記是 `sep_token`。
sep_token (str, 可選, 預設為 "</s>") — 分隔符標記，用於從多個序列構建一個序列，例如，用於序列分類的兩個序列，或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
cls_token (str, 可選, 預設為 "<s>") — 分類器標記，用於進行序列分類（對整個序列進行分類，而不是對每個標記進行分類）。當使用特殊標記構建序列時，它是序列的第一個標記。
unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記無法轉換為 ID，而是被設定為此標記。
pad_token (str, 可選, 預設為 "<pad>") — 用於填充的標記，例如在批處理不同長度的序列時使用。
mask_token (str, 可選, 預設為 "<mask>") — 用於遮蔽值的標記。這是使用掩碼語言模型訓練此模型時使用的標記。這是模型將嘗試預測的標記。
add_prefix_space (bool, 可選, 預設為 False) — 是否在輸入前新增一個初始空格。這允許將首個單詞與其他任何單詞一樣處理。（Blenderbot tokenizer 透過前面的空格來檢測單詞的開頭）。
trim_offsets (bool, 可選, 預設為 True) — 後處理步驟是否應修剪偏移量以避免包含空格。

構建一個“快速”的 Blenderbot 分詞器（由 HuggingFace 的 *tokenizers* 庫支援），它派生自 GPT-2 分詞器，使用位元組級位元組對編碼（Byte-Pair-Encoding）。

這個分詞器經過訓練，將空格視為詞元的一部分（有點像 sentencepiece），所以一個詞會

無論是否在句子開頭（無空格），編碼方式都會不同

>>> from transformers import BlenderbotTokenizerFast

>>> tokenizer = BlenderbotTokenizerFast.from_pretrained("facebook/blenderbot-3B")
>>> tokenizer("Hello world")["input_ids"]
[6950, 1085, 2]

>>> tokenizer(" Hello world")["input_ids"]
[6950, 1085, 2]

當與 is_split_into_words=True 一起使用時，此分詞器需要以 add_prefix_space=True 進行例項化。

該分詞器繼承自 PreTrainedTokenizerFast，其中包含了大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 將要新增特殊標記的 ID 列表
token_ids_1 (list[int], 可選) — 將被忽略

list[int]

包含適當特殊標記的輸入 ID 列表。

透過連線和新增特殊標記，從一個序列或一對序列為序列分類任務構建模型輸入。Blenderbot 序列具有以下格式

單個序列：X </s>

Pytorch

隱藏 Pytorch 內容

BlenderbotModel

有關 *forward* 和 *generate* 的引數，請參閱 BartModel

class transformers.BlenderbotModel

( config: BlenderbotConfig )

引數

config (BlenderbotConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。

Blenderbot 基礎模型，輸出原始的隱藏狀態，頂部沒有任何特定的頭。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Union[tuple, transformers.modeling_outputs.BaseModelOutput, NoneType] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.Tensor] = None ) → transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor of shape (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor of shape (batch_size, sequence_length), 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值在 `[0, 1]` 中選擇：
- 1 表示標記未被遮蔽，
- 0 表示標記被遮蔽。
什麼是注意力掩碼？
decoder_input_ids (torch.LongTensor of shape (batch_size, target_sequence_length), 可選) — 詞彙表中解碼器輸入序列標記的索引。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

Blenderbot 使用 `bos_token_id` 作為生成 `decoder_input_ids` 的起始標記。如果使用 `past_key_values`，可以選擇只輸入最後一個 `decoder_input_ids`（請參閱 `past_key_values`）。
decoder_attention_mask (torch.LongTensor of shape (batch_size, target_sequence_length), 可選) — 預設行為：生成一個忽略 `decoder_input_ids` 中填充標記的張量。預設情況下也會使用因果掩碼。
head_mask (torch.Tensor of shape (num_heads,) or (num_layers, num_heads), 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 `[0, 1]` 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
decoder_head_mask (torch.Tensor of shape (decoder_layers, decoder_attention_heads), 可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值在 `[0, 1]` 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
cross_attn_head_mask (torch.Tensor of shape (decoder_layers, decoder_attention_heads), 可選) — 用於使解碼器中交叉注意力模組的選定頭部無效的掩碼。掩碼值在 `[0, 1]` 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
encoder_outputs (Union[tuple, ~modeling_outputs.BaseModelOutput, NoneType]) — 由 (`last_hidden_state`, *可選*: `hidden_states`, *可選*: `attentions`) 組成的元組。`last_hidden_state` 形狀為 `(batch_size, sequence_length, hidden_size)`，*可選*) 是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力。
past_key_values (list[torch.FloatTensor], 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括在解碼的前一階段，當 `use_cache=True` 或 `config.use_cache=True` 時由模型返回的 `past_key_values`。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 一個長度為 `config.n_layers` 的 `tuple(torch.FloatTensor)` 元組，每個元組有兩個形狀為 `(batch_size, num_heads, sequence_length, embed_size_per_head)` 的張量。這也稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳遞 `past_key_values`，將返回舊版快取格式。

如果使用 `past_key_values`，使用者可以選擇只輸入最後一個 `input_ids`（那些沒有為其提供過去鍵值狀態的 ID），形狀為 `(batch_size, 1)`，而不是所有形狀為 `(batch_size, sequence_length)` 的 `input_ids`。
inputs_embeds (torch.Tensor of shape (batch_size, sequence_length, hidden_size), 可選) — 或者，你可以選擇不傳遞 `input_ids`，而是直接傳遞一個嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 `input_ids` 索引轉換為相關向量，這將非常有用。
decoder_inputs_embeds (torch.FloatTensor of shape (batch_size, target_sequence_length, hidden_size), 可選) — 或者，你可以選擇不傳遞 `decoder_input_ids`，而是直接傳遞一個嵌入表示。如果使用 `past_key_values`，可以選擇只輸入最後一個 `decoder_inputs_embeds`（請參閱 `past_key_values`）。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 `decoder_input_ids` 索引轉換為相關向量，這將非常有用。

如果 `decoder_input_ids` 和 `decoder_inputs_embeds` 都未設定，`decoder_inputs_embeds` 將取 `inputs_embeds` 的值。
use_cache (bool, 可選) — 如果設定為 `True`，則返回 `past_key_values` 鍵值狀態，可用於加速解碼（請參閱 `past_key_values`）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 `attentions`。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 `hidden_states`。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
cache_position (torch.Tensor，形狀為 (sequence_length)，可選) — 描述輸入序列中詞元位置的索引。與 position_ids 相反，此張量不受填充的影響。它用於在正確的位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.Seq2SeqModelOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BlenderbotConfig）和輸入，包含各種元素。

last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)) — 模型解碼器最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (EncoderDecoderCache，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每個層輸出的隱藏狀態，加上可選的初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每個層輸出的隱藏狀態，加上可選的初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

BlenderbotModel 的 forward 方法會覆蓋 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, BlenderbotModel

>>> model = BlenderbotModel.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> inputs = tokenizer("Studies have been shown that owning a dog is good for you", return_tensors="pt")
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1
>>> outputs = model(input_ids=inputs.input_ids, decoder_input_ids=decoder_input_ids)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 6, 1280]

BlenderbotForConditionalGeneration

有關 forward 和 generate 的引數，請參閱 BartForConditionalGeneration。

class transformers.BlenderbotForConditionalGeneration

( config: BlenderbotConfig )

引數

config (BlenderbotConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化時，不會載入與模型關聯的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有語言模型頭的 Blenderbot 模型。可用於摘要任務。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Union[tuple, transformers.modeling_outputs.BaseModelOutput, NoneType] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.Tensor] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列詞元的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力機制的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被掩碼，
- 0 表示詞元被掩碼。
什麼是注意力掩碼？
decoder_input_ids (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 詞彙表中解碼器輸入序列詞元的索引。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

Blenderbot 使用 bos_token_id 作為生成 decoder_input_ids 的起始詞元。如果使用 past_key_values，則可以選擇只輸入最後一個 decoder_input_ids（參見 past_key_values）。
decoder_attention_mask (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 預設行為：生成一個忽略 decoder_input_ids 中填充詞元的張量。預設情況下也會使用因果掩碼。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於置零自注意力模組中選定頭的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被掩碼，
- 0 表示頭被掩碼。
decoder_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於置零解碼器中注意力模組選定頭的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被掩碼，
- 0 表示頭被掩碼。
cross_attn_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於置零解碼器中交叉注意力模組選定頭的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被掩碼，
- 0 表示頭被掩碼。
encoder_outputs (Union[tuple, ~modeling_outputs.BaseModelOutput, NoneType]) — 由 (last_hidden_state, 可選: hidden_states, 可選: attentions) 組成的元組。last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size)，可選）是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力機制。
past_key_values (list[torch.FloatTensor]，可選) — 預計算的隱藏狀態（自注意力和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常是在解碼的先前階段，當 use_cache=True 或 config.use_cache=True 時，由模型返回的 past_key_values。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 的元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有提供其過去鍵值狀態給此模型的詞元），形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量，這將非常有用。
decoder_inputs_embeds (torch.FloatTensor，形狀為 (batch_size, target_sequence_length, hidden_size)，可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞 decoder_input_ids。如果使用 past_key_values，則可以選擇只輸入最後一個 decoder_inputs_embeds（參見 past_key_values）。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 decoder_input_ids 索引轉換為關聯向量，這將非常有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 都未設定，decoder_inputs_embeds 將取 inputs_embeds 的值。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（參見 input_ids 的文件字串）。索引設定為 -100 的詞元將被忽略（掩碼），損失僅對標籤在 [0, ..., config.vocab_size] 中的詞元計算。
use_cache (bool，可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，並可用於加速解碼（參見 past_key_values）。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
cache_position (torch.Tensor，形狀為 (sequence_length)，可選) — 描述輸入序列中詞元位置的索引。與 position_ids 相反，此張量不受填充的影響。它用於在正確的位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.Seq2SeqLMOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BlenderbotConfig）和輸入，包含各種元素。

loss (torch.FloatTensor，形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (EncoderDecoderCache，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

BlenderbotForConditionalGeneration 的 forward 方法會覆蓋 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

對話示例

>>> from transformers import AutoTokenizer, BlenderbotForConditionalGeneration

>>> mname = "facebook/blenderbot-400M-distill"
>>> model = BlenderbotForConditionalGeneration.from_pretrained(mname)
>>> tokenizer = AutoTokenizer.from_pretrained(mname)
>>> UTTERANCE = "My friends are cool but they eat too many carbs."
>>> print("Human: ", UTTERANCE)
Human:  My friends are cool but they eat too many carbs.

>>> inputs = tokenizer([UTTERANCE], return_tensors="pt")
>>> reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(reply_ids, skip_special_tokens=True)[0])
Bot: That's unfortunate. Are they trying to lose weight or are they just trying to be healthier?

>>> REPLY = "I'm not sure"
>>> print("Human: ", REPLY)
Human: I'm not sure

>>> NEXT_UTTERANCE = (
...     "My friends are cool but they eat too many carbs.</s> <s>That's unfortunate. "
...     "Are they trying to lose weight or are they just trying to be healthier?</s> "
...     "<s> I'm not sure."
... )
>>> inputs = tokenizer([NEXT_UTTERANCE], return_tensors="pt")
>>> next_reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(next_reply_ids, skip_special_tokens=True)[0])
Bot:   I see. Well, it's good that they're trying to change their eating habits.

BlenderbotForCausalLM

class transformers.BlenderbotForCausalLM

( config )

forward

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列詞元的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力機制的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被掩碼，
- 0 表示詞元被掩碼。
什麼是注意力掩碼？
encoder_hidden_states (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 編碼器最後一層輸出的隱藏狀態序列。如果模型被配置為解碼器，則在交叉注意力中使用。
encoder_attention_mask (torch.FloatTensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對編碼器輸入的填充詞元索引執行注意力機制的掩碼。如果模型被配置為解碼器，此掩碼在交叉注意力中使用。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被掩碼，
- 0 表示詞元被掩碼。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於置零自注意力模組中選定頭的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被掩碼，
- 0 表示頭被掩碼。
cross_attn_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於置零交叉注意力模組中選定頭的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被掩碼，
- 0 表示頭被掩碼。
past_key_values (list[torch.FloatTensor]，可選) — 預計算的隱藏狀態（自注意力和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常是在解碼的先前階段，當 use_cache=True 或 config.use_cache=True 時，由模型返回的 past_key_values。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 的元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有提供其過去鍵值狀態給此模型的詞元），形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量，這將非常有用。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（參見 input_ids 的文件字串）。索引設定為 -100 的詞元將被忽略（掩碼），損失僅對標籤在 [0, ..., config.vocab_size] 中的詞元計算。
use_cache (bool，可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，並可用於加速解碼（參見 past_key_values）。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
cache_position (torch.LongTensor，形狀為 (sequence_length)，可選) — 描述輸入序列中詞元位置的索引。與 position_ids 相反，此張量不受填充的影響。它用於在正確的位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BlenderbotConfig）和輸入，包含各種元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
cross_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的交叉注意力權重，用於計算交叉注意力頭中的加權平均。
past_key_values (Cache，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。

BlenderbotForCausalLM 的 forward 方法會覆蓋 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, BlenderbotForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")
>>> model = BlenderbotForCausalLM.from_pretrained("facebook/blenderbot-400M-distill", add_cross_attention=False)
>>> assert model.config.is_decoder, f"{model.__class__} has to be configured as a decoder."
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> logits = outputs.logits
>>> expected_shape = [1, inputs.input_ids.shape[-1], model.config.vocab_size]
>>> list(logits.shape) == expected_shape
True

TensorFlow

隱藏 TensorFlow 內容

TFBlenderbotModel

class transformers.TFBlenderbotModel

( config: BlenderbotConfig *inputs **kwargs )

引數

config (BlenderbotConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化時，不會載入與模型關聯的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

基礎 BLENDERBOT 模型，輸出原始隱藏狀態，頂部沒有任何特定的頭。此模型繼承自 TFPreTrainedModel。請檢視超類的文件，瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭等）。

此模型也是 keras.Model 的子類。可以像常規的 TF 2.0 Keras 模型一樣使用它，並參考 TF 2.0 文件瞭解所有與常規用法和行為相關的事項。

transformers 中的 TensorFlow 模型和層接受兩種輸入格式

所有輸入作為關鍵字引數（如 PyTorch 模型），或
所有輸入作為第一個位置引數中的列表、元組或字典。

支援第二種格式的原因是，Keras 方法在向模型和層傳遞輸入時更喜歡這種格式。由於這種支援，當使用像 model.fit() 這樣的方法時，事情應該“自然而然”地為你工作——只需以 model.fit() 支援的任何格式傳遞你的輸入和標籤！但是，如果你想在 Keras 方法（如 fit() 和 predict()）之外使用第二種格式，例如在使用 Keras Functional API 建立自己的層或模型時，有三種可能性可以將所有輸入張量收集到第一個位置引數中

只有一個 input_ids 的單個張量，沒有其他：model(input_ids)
長度可變的列表，包含一個或多個輸入張量，按文件字串中給出的順序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一個字典，其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

請注意，在使用子類化建立模型和層時，你無需擔心任何這些問題，因為你可以像呼叫任何其他 Python 函式一樣傳遞輸入！

呼叫

( input_ids: tf.Tensor | None = None attention_mask: tf.Tensor | None = None decoder_input_ids: tf.Tensor | None = None decoder_attention_mask: tf.Tensor | None = None decoder_position_ids: tf.Tensor | None = None head_mask: tf.Tensor | None = None decoder_head_mask: tf.Tensor | None = None cross_attn_head_mask: tf.Tensor | None = None encoder_outputs: Optional[Union[tuple, TFBaseModelOutput]] = None past_key_values: list[tf.Tensor] | None = None inputs_embeds: tf.Tensor | None = None decoder_inputs_embeds: tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False **kwargs ) → transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或 tuple(tf.Tensor)

引數

input_ids (tf.Tensor，形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充標記索引執行注意力機制的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示標記未被遮蔽，
- 0 表示標記已被遮蔽。
什麼是注意力掩碼？
decoder_input_ids (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 詞彙表中解碼器輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

Blenderbot 使用 bos_token_id 作為生成 decoder_input_ids 的起始標記。如果使用 past_key_values，可以選擇只輸入最後一個 decoder_input_ids（請參閱 past_key_values）。
decoder_attention_mask (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 預設情況下會建立並忽略填充標記。在大多數用例中不建議設定此項。
decoder_position_ids (tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 每個解碼器輸入序列標記在位置嵌入中的位置索引。選擇範圍在 [0, config.max_position_embeddings - 1] 內。
head_mask (tf.Tensor，形狀為 (encoder_layers, encoder_attention_heads)，可選) — 用於使編碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
decoder_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
cross_attn_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
encoder_outputs (tf.FloatTensor，可選) — 編碼器最後一層的輸出隱藏狀態。用於解碼器的交叉注意力機制。形狀為 (batch_size, sequence_length, hidden_size) 的序列。
past_key_values (長度為 config.n_layers 的 tuple[tuple[tf.Tensor]]) — 包含預先計算的注意力塊的鍵和值隱藏狀態。可用於加速解碼。如果使用了 past_key_values，使用者可以選擇只輸入最後一個形狀為 (batch_size, 1) 的 decoder_input_ids（那些沒有提供給此模型其過去鍵值狀態的 ID），而不是所有形狀為 (batch_size, sequence_length) 的 decoder_input_ids。
use_cache (bool，可選，預設為 True) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（請參閱 past_key_values）。訓練時設定為 False，生成時設定為 True。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。此引數只能在 Eager 模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。此引數只能在 Eager 模式下使用，在圖模式下將使用配置中的值。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在 Eager 模式下使用，在圖模式下該值將始終設定為 True。
training (bool，可選，預設為 False) — 是否在訓練模式下使用模型（某些模組如 dropout 模組在訓練和評估之間有不同的行為）。

transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或 tuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或一個 tf.Tensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BlenderbotConfig）和輸入，包含各種元素。

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 tf.Tensor) — 模型解碼器最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (list[tf.Tensor]，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tf.Tensor 列表，每個張量的形狀為 (2, batch_size, num_heads, sequence_length, embed_size_per_head))。

包含解碼器注意力塊的預計算隱藏狀態（鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組（一個用於嵌入層的輸出 + 一個用於每層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(tf.Tensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(tf.Tensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 tf.Tensor, 可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組（一個用於嵌入層的輸出 + 一個用於每層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(tf.Tensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

TFBlenderbotModel 的前向方法，重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, TFBlenderbotModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")
>>> model = TFBlenderbotModel.from_pretrained("facebook/blenderbot-400M-distill")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFBlenderbotForConditionalGeneration

class transformers.TFBlenderbotForConditionalGeneration

( config *inputs **kwargs )

引數

config (BlenderbotConfig) — 模型配置類，包含模型的所有引數。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有語言建模頭的 BLENDERBOT 模型。可用於摘要任務。該模型繼承自 TFPreTrainedModel。請檢視超類文件，瞭解該庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 keras.Model 的子類。可以像常規的 TF 2.0 Keras 模型一樣使用它，並參考 TF 2.0 文件瞭解所有與常規用法和行為相關的事項。

transformers 中的 TensorFlow 模型和層接受兩種輸入格式

所有輸入作為關鍵字引數（如 PyTorch 模型），或
所有輸入作為第一個位置引數中的列表、元組或字典。

只有一個 input_ids 的單個張量，沒有其他：model(input_ids)
長度可變的列表，包含一個或多個輸入張量，按文件字串中給出的順序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一個字典，其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

請注意，在使用子類化建立模型和層時，你無需擔心任何這些問題，因為你可以像呼叫任何其他 Python 函式一樣傳遞輸入！

呼叫

( input_ids: tf.Tensor | None = None attention_mask: tf.Tensor | None = None decoder_input_ids: tf.Tensor | None = None decoder_attention_mask: tf.Tensor | None = None decoder_position_ids: tf.Tensor | None = None head_mask: tf.Tensor | None = None decoder_head_mask: tf.Tensor | None = None cross_attn_head_mask: tf.Tensor | None = None encoder_outputs: Optional[Union[tuple, TFBaseModelOutput]] = None past_key_values: list[tf.Tensor] | None = None inputs_embeds: tf.Tensor | None = None decoder_inputs_embeds: tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或 tuple(tf.Tensor)

引數

input_ids (tf.Tensor，形狀為 ({0})) — 詞彙表中輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (tf.Tensor，形狀為 ({0})，可選) — 用於避免對填充標記索引執行注意力機制的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示標記未被遮蔽，
- 0 表示標記已被遮蔽。
什麼是注意力掩碼？
decoder_input_ids (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 詞彙表中解碼器輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

Blenderbot 使用 bos_token_id 作為生成 decoder_input_ids 的起始標記。如果使用 past_key_values，可以選擇只輸入最後一個 decoder_input_ids（請參閱 past_key_values）。
decoder_attention_mask (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 預設情況下會建立並忽略填充標記。在大多數用例中不建議設定此項。
decoder_position_ids (tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 每個解碼器輸入序列標記在位置嵌入中的位置索引。選擇範圍在 [0, config.max_position_embeddings - 1] 內。
head_mask (tf.Tensor，形狀為 (encoder_layers, encoder_attention_heads)，可選) — 用於使編碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
decoder_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
cross_attn_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭無效的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
encoder_outputs (tf.FloatTensor，可選) — 編碼器最後一層的輸出隱藏狀態。用於解碼器的交叉注意力機制。形狀為 (batch_size, sequence_length, hidden_size) 的序列。
past_key_values (長度為 config.n_layers 的 tuple[tuple[tf.Tensor]]) — 包含預先計算的注意力塊的鍵和值隱藏狀態。可用於加速解碼。如果使用了 past_key_values，使用者可以選擇只輸入最後一個形狀為 (batch_size, 1) 的 decoder_input_ids（那些沒有提供給此模型其過去鍵值狀態的 ID），而不是所有形狀為 (batch_size, sequence_length) 的 decoder_input_ids。
use_cache (bool，可選，預設為 True) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（請參閱 past_key_values）。訓練時設定為 False，生成時設定為 True。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。此引數只能在 Eager 模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。此引數只能在 Eager 模式下使用，在圖模式下將使用配置中的值。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在 Eager 模式下使用，在圖模式下該值將始終設定為 True。
training (bool，可選，預設為 False) — 是否在訓練模式下使用模型（某些模組如 dropout 模組在訓練和評估之間有不同的行為）。
labels (tf.tensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（請參閱 input_ids 文件字串）。索引設定為 -100 的標記將被忽略（遮蔽），損失僅對標籤在 [0, ..., config.vocab_size] 內的標記計算。

transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或 tuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或一個 tf.Tensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BlenderbotConfig）和輸入，包含各種元素。

loss (形狀為 (n,) 的 tf.Tensor, 可選, 其中 n 是非掩碼標籤的數量，當提供 labels 時返回) — 語言建模損失。
logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數（SoftMax 之前每個詞彙標記的分數）。
past_key_values (list[tf.Tensor]，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tf.Tensor 列表，每個張量的形狀為 (2, batch_size, num_heads, sequence_length, embed_size_per_head))。

包含解碼器注意力塊的預計算隱藏狀態（鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組（一個用於嵌入層的輸出 + 一個用於每層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(tf.Tensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(tf.Tensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 tf.Tensor, 可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — tf.Tensor 的元組（一個用於嵌入層的輸出 + 一個用於每層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(tf.Tensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

TFBlenderbotForConditionalGeneration 的前向方法，重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

對話示例：

>>> from transformers import AutoTokenizer, TFBlenderbotForConditionalGeneration

>>> mname = "facebook/blenderbot-400M-distill"
>>> model = TFBlenderbotForConditionalGeneration.from_pretrained(mname)
>>> tokenizer = AutoTokenizer.from_pretrained(mname)
>>> UTTERANCE = "My friends are cool but they eat too many carbs."
>>> print("Human: ", UTTERANCE)

>>> inputs = tokenizer([UTTERANCE], return_tensors="tf")
>>> reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(reply_ids, skip_special_tokens=True)[0])

>>> REPLY = "I'm not sure"
>>> print("Human: ", REPLY)
>>> NEXT_UTTERANCE = (
...     "My friends are cool but they eat too many carbs.</s> <s>That's unfortunate. "
...     "Are they trying to lose weight or are they just trying to be healthier?</s> "
...     "<s> I'm not sure."
... )
>>> inputs = tokenizer([NEXT_UTTERANCE], return_tensors="tf")
>>> next_reply_ids = model.generate(**inputs)
>>> print("Bot: ", tokenizer.batch_decode(next_reply_ids, skip_special_tokens=True)[0])

JAX

隱藏 JAX 內容

FlaxBlenderbotModel

class transformers.FlaxBlenderbotModel

( config: BlenderbotConfig input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

引數

config (BlenderbotConfig) — 模型配置類，包含模型的所有引數。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

裸 MBart 模型轉換器，輸出原始隱藏狀態，頂部沒有任何特定的頭。該模型繼承自 FlaxPreTrainedModel。請檢視超類文件，瞭解該庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是一個 Flax Linen flax.nn.Module 的子類。請將其作為常規的 Flax 模組使用，並參考 Flax 文件瞭解所有與一般用法和行為相關的事項。

最後，此模型支援固有的 JAX 功能，例如

call

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutput 或 tuple(torch.FloatTensor)

引數

input_ids (jnp.ndarray，形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。如果您提供填充，預設情況下將被忽略。

索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (jnp.ndarray，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充標記索引執行注意力機制的掩碼。掩碼值的選擇範圍為 [0, 1]：
- 1 表示標記未被遮蔽，
- 0 表示標記已被遮蔽。
什麼是注意力掩碼？
decoder_input_ids (jnp.ndarray，形狀為 (batch_size, target_sequence_length)，可選) — 詞彙表中解碼器輸入序列標記的索引。

索引可以使用 AutoTokenizer 獲得。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

對於翻譯和摘要訓練，應提供 decoder_input_ids。如果未提供 decoder_input_ids，模型將根據論文中的去噪預訓練方法，透過將 input_ids 右移來建立此張量。
decoder_attention_mask (jnp.ndarray，形狀為 (batch_size, target_sequence_length)，可選) — 預設行為：生成一個忽略 decoder_input_ids 中填充標記的張量。預設情況下也會使用因果掩碼。

如果你想改變填充行為，你應該根據你的需要進行修改。有關預設策略的更多資訊，請參閱論文中的圖 1。
position_ids (numpy.ndarray，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]。
decoder_position_ids (numpy.ndarray，形狀為 (batch_size, sequence_length)，可選) — 每個解碼器輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BlenderbotConfig）和輸入，包含不同的元素。

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 jnp.ndarray) — 模型解碼器最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (tuple(tuple(jnp.ndarray))，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(jnp.ndarray) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量，以及 2 個額外的形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(jnp.ndarray)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組（一個用於嵌入層的輸出，一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 jnp.ndarray，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(jnp.ndarray)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組（一個用於嵌入層的輸出，一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

FlaxBlenderbotPreTrainedModel 的前向方法，重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoTokenizer, FlaxBlenderbotModel

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")
>>> model = FlaxBlenderbotModel.from_pretrained("facebook/blenderbot-400M-distill")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="jax")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

編碼

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

引數

input_ids (jnp.ndarray，形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列詞元的索引。如果您提供填充，預設情況下將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (jnp.ndarray，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未被遮蔽的詞元，
- 0 表示被遮蔽的詞元。
什麼是注意力掩碼？
position_ids (numpy.ndarray，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（<class 'transformers.models.blenderbot.configuration_blenderbot.BlenderbotConfig'>）和輸入，包含不同的元素。

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 jnp.ndarray) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(jnp.ndarray)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組（一個用於嵌入層的輸出，一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

示例

>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="jax")
>>> encoder_outputs = model.encode(**inputs)

decode

( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None past_key_values: typing.Optional[dict] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

引數

decoder_input_ids (jnp.ndarray，形狀為 (batch_size, target_sequence_length)) — 詞彙表中解碼器輸入序列詞元的索引。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

對於翻譯和摘要訓練，應提供 decoder_input_ids。如果未提供 decoder_input_ids，模型將透過將 input_ids 右移來建立此張量，以進行論文中描述的去噪預訓練。
encoder_outputs (tuple(tuple(jnp.ndarray)) — 元組包含（last_hidden_state，可選：hidden_states，可選：attentions）last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size)，可選）是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力中。
encoder_attention_mask (jnp.ndarray，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未被遮蔽的詞元，
- 0 表示被遮蔽的詞元。
什麼是注意力掩碼？
decoder_attention_mask (jnp.ndarray，形狀為 (batch_size, target_sequence_length)，可選) — 預設行為：生成一個忽略 decoder_input_ids 中填充詞元的張量。預設情況下也會使用因果掩碼。

如果要更改填充行為，應根據需要進行修改。有關預設策略的更多資訊，請參閱論文中的圖 1。
decoder_position_ids (numpy.ndarray，形狀為 (batch_size, sequence_length)，可選) — 每個解碼器輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]。
past_key_values (dict[str, np.ndarray]，可選，由 init_cache 返回或在傳遞先前的 past_key_values 時返回) — 預先計算的隱藏狀態字典（注意力塊中的鍵和值），可用於快速自迴歸解碼。預先計算的鍵和值隱藏狀態的形狀為 [batch_size, max_length]。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（<class 'transformers.models.blenderbot.configuration_blenderbot.BlenderbotConfig'>）和輸入，包含不同的元素。

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 jnp.ndarray) — 模型最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (tuple(tuple(jnp.ndarray))，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(jnp.ndarray) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量，如果 config.is_encoder_decoder=True，則還包含 2 個額外的形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則還包含交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速序列解碼。
hidden_states (tuple(jnp.ndarray)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組（一個用於嵌入層的輸出，一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
cross_attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 且 config.add_cross_attention=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。

示例

>>> import jax.numpy as jnp
>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="jax")
>>> encoder_outputs = model.encode(**inputs)

>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id

>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> last_decoder_hidden_states = outputs.last_hidden_state

FlaxBlenderbotForConditionalGeneration

class transformers.FlaxBlenderbotForConditionalGeneration

( config: BlenderbotConfig input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

引數

config (BlenderbotConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有語言建模頭的 Blenderbot 模型。可用於摘要生成。該模型繼承自 FlaxPreTrainedModel。請檢視超類文件，瞭解庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是一個 Flax Linen flax.nn.Module 的子類。請將其作為常規的 Flax 模組使用，並參考 Flax 文件瞭解所有與一般用法和行為相關的事項。

最後，此模型支援固有的 JAX 功能，例如

call

引數

input_ids (jnp.ndarray，形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列詞元的索引。如果您提供填充，預設情況下將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (jnp.ndarray，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未被遮蔽的詞元，
- 0 表示被遮蔽的詞元。
什麼是注意力掩碼？
decoder_input_ids (jnp.ndarray，形狀為 (batch_size, target_sequence_length)，可選) — 詞彙表中解碼器輸入序列詞元的索引。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

對於翻譯和摘要訓練，應提供 decoder_input_ids。如果未提供 decoder_input_ids，模型將透過將 input_ids 右移來建立此張量，以進行論文中描述的去噪預訓練。
decoder_attention_mask (jnp.ndarray，形狀為 (batch_size, target_sequence_length)，可選) — 預設行為：生成一個忽略 decoder_input_ids 中填充詞元的張量。預設情況下也會使用因果掩碼。

如果要更改填充行為，應根據需要進行修改。有關預設策略的更多資訊，請參閱論文中的圖 1。
position_ids (numpy.ndarray，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]。
decoder_position_ids (numpy.ndarray，形狀為 (batch_size, sequence_length)，可選) — 每個解碼器輸入序列詞元在位置嵌入中的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（BlenderbotConfig）和輸入，包含不同的元素。

logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 jnp.ndarray) — 語言建模頭的預測分數（SoftMax 之前每個詞彙 token 的分數）。
past_key_values (tuple(tuple(jnp.ndarray))，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(jnp.ndarray) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量，以及 2 個額外的形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(jnp.ndarray)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組（一個用於嵌入層的輸出，一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 jnp.ndarray，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(jnp.ndarray)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組（一個用於嵌入層的輸出，一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

FlaxBlenderbotPreTrainedModel 的前向方法，重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式中定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

對話示例：

>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> UTTERANCE = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer([UTTERANCE], max_length=1024, return_tensors="np")

>>> # Generate Reply
>>> reply_ids = model.generate(inputs["input_ids"], num_beams=4, max_length=5, early_stopping=True).sequences
>>> print([tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in reply_ids])

編碼

引數

input_ids (jnp.ndarray，形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列詞元的索引。如果您提供填充，預設情況下將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (jnp.ndarray，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未被遮蔽的詞元，
- 0 表示被遮蔽的詞元。
什麼是注意力掩碼？
position_ids (numpy.ndarray，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。取值範圍為 [0, config.max_position_embeddings - 1]。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 jnp.ndarray) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(jnp.ndarray)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — jnp.ndarray 的元組（一個用於嵌入層的輸出，一個用於每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
attentions (tuple(jnp.ndarray)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — jnp.ndarray 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

示例

>>> from transformers import AutoTokenizer, FlaxBlenderbotForConditionalGeneration

>>> model = FlaxBlenderbotForConditionalGeneration.from_pretrained("facebook/blenderbot-400M-distill")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/blenderbot-400M-distill")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="jax")
>>> encoder_outputs = model.encode(**inputs)

decode