Transformers

( *args **kwargs )

所有模型輸出的基類，作為資料類。具有一個 __getitem__ 方法，允許透過整數或切片（像元組一樣）或字串（像字典一樣）進行索引，這將忽略 None 屬性。否則，其行為類似於常規 Python 字典。

您不能直接解包 ModelOutput。請使用 to_tuple() 方法將其轉換為元組。

to_tuple

( )

將自身轉換為包含所有非 None 屬性/鍵的元組。

BaseModelOutput

class transformers.modeling_outputs.BaseModelOutput

( last_hidden_state: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(torch.FloatTensor), 可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個）。

模型在每個層輸出的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

模型輸出的基類，可能包含隱藏狀態和注意力。

BaseModelOutputWithPooling

class transformers.modeling_outputs.BaseModelOutputWithPooling

引數

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (形狀為 (batch_size, hidden_size) 的 torch.FloatTensor) — 經過用於輔助預訓練任務的層進一步處理後，序列中第一個 token（分類 token）的最後一層隱藏狀態。例如，對於 BERT 族模型，這會在經過線性層和 tanh 啟用函式處理後返回分類 token。線性層權重在預訓練期間根據下一句預測（分類）目標進行訓練。
hidden_states (tuple(torch.FloatTensor), 可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個）。

模型在每個層輸出的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

模型輸出的基類，也包含最後隱藏狀態的池化。

BaseModelOutputWithCrossAttentions

class transformers.modeling_outputs.BaseModelOutputWithCrossAttentions

( last_hidden_state: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(torch.FloatTensor), 可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個）。

模型在每個層輸出的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選，當傳遞 output_attentions=True 且 config.add_cross_attention=True 時返回，或當 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

解碼器交叉注意力層在注意力 softmax 後的注意力權重，用於計算交叉注意力頭中的加權平均。

模型輸出的基類，可能包含隱藏狀態和注意力。

BaseModelOutputWithPoolingAndCrossAttentions

class transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions

( last_hidden_state: typing.Optional[torch.FloatTensor] = None pooler_output: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (形狀為 (batch_size, hidden_size) 的 torch.FloatTensor) — 經過用於輔助預訓練任務的層進一步處理後，序列中第一個 token（分類 token）的最後一層隱藏狀態。例如，對於 BERT 族模型，這會在經過線性層和 tanh 啟用函式處理後返回分類 token。線性層權重在預訓練期間根據下一句預測（分類）目標進行訓練。
hidden_states (tuple(torch.FloatTensor), 可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個）。

模型在每個層輸出的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選，當傳遞 output_attentions=True 且 config.add_cross_attention=True 時返回，或當 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

解碼器交叉注意力層在注意力 softmax 後的注意力權重，用於計算交叉注意力頭中的加權平均。
past_key_values (Cache, 可選，當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 KV 快取指南。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則可選地包含交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。

模型輸出的基類，也包含最後隱藏狀態的池化。

BaseModelOutputWithPast

class transformers.modeling_outputs.BaseModelOutputWithPast

( last_hidden_state: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最後一層輸出的隱藏狀態序列。

如果使用 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後隱藏狀態。
past_key_values (Cache, 可選，當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 KV 快取指南。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則可選地包含交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個）。

模型在每個層輸出的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

模型輸出的基類，也可能包含過去的鍵/值（以加速順序解碼）。

BaseModelOutputWithPastAndCrossAttentions

class transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions

引數

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最後一層輸出的隱藏狀態序列。

如果使用 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後隱藏狀態。
past_key_values (Cache, 可選，當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 KV 快取指南。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則可選地包含交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層的輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 和 config.add_cross_attention=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層在注意力 softmax 後的注意力權重，用於計算交叉注意力頭中的加權平均。

模型輸出的基類，也可能包含過去的鍵/值（以加速順序解碼）。

Seq2SeqModelOutput

class transformers.modeling_outputs.Seq2SeqModelOutput

( last_hidden_state: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None decoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None decoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_last_hidden_state: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)) — 模型解碼器最後一層的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (EncoderDecoderCache, 可選, 當傳入 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情請參閱我們的 kv cache 指南。

包含預計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參閱 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每個層的輸出處的隱藏狀態，以及可選的初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器在注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層在注意力 softmax 後的注意力權重，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), 可選) — 模型編碼器最後一層的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每個層的輸出處的隱藏狀態，以及可選的初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器在注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

模型編碼器輸出的基類，也包含：可加速順序解碼的預計算隱藏狀態。

CausalLMOutput

class transformers.modeling_outputs.CausalLMOutput

( loss: typing.Optional[torch.FloatTensor] = None logits: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

loss (torch.FloatTensor，形狀為 (1,), 可選, 當提供 labels 時返回) — 語言模型損失（用於下一詞預測）。
logits (torch.FloatTensor，形狀為 (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層的輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

因果語言模型（或自迴歸模型）輸出的基類。

CausalLMOutputWithCrossAttentions

class transformers.modeling_outputs.CausalLMOutputWithCrossAttentions

( loss: typing.Optional[torch.FloatTensor] = None logits: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

loss (torch.FloatTensor，形狀為 (1,), 可選, 當提供 labels 時返回) — 語言模型損失（用於下一詞預測）。
logits (torch.FloatTensor，形狀為 (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層的輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

交叉注意力 softmax 後的交叉注意力權重，用於計算交叉注意力頭中的加權平均。
past_key_values (Cache, 可選, 當傳入 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 kv cache 指南。

包含預計算的隱藏狀態（注意力塊中的鍵和值），可用於（參閱 past_key_values 輸入）加速順序解碼。

因果語言模型（或自迴歸模型）輸出的基類。

CausalLMOutputWithPast

class transformers.modeling_outputs.CausalLMOutputWithPast

引數

loss (torch.FloatTensor，形狀為 (1,), 可選, 當提供 labels 時返回) — 語言模型損失（用於下一詞預測）。
logits (torch.FloatTensor，形狀為 (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (Cache, 可選, 當傳入 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 kv cache 指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參閱 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層的輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

因果語言模型（或自迴歸模型）輸出的基類。

MaskedLMOutput

class transformers.modeling_outputs.MaskedLMOutput

引數

loss (torch.FloatTensor，形狀為 (1,), 可選, 當提供 labels 時返回) — 掩碼語言模型 (MLM) 損失。
logits (torch.FloatTensor，形狀為 (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層的輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

掩碼語言模型輸出的基類。

Seq2SeqLMOutput

class transformers.modeling_outputs.Seq2SeqLMOutput

( loss: typing.Optional[torch.FloatTensor] = None logits: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None decoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None decoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_last_hidden_state: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

loss (torch.FloatTensor，形狀為 (1,), 可選, 當提供 labels 時返回) — 語言模型損失。
logits (torch.FloatTensor，形狀為 (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (EncoderDecoderCache, 可選, 當傳入 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情請參閱我們的 kv cache 指南。

包含預計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參閱 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每個層的輸出處的隱藏狀態，以及初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器在注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層在注意力 softmax 後的注意力權重，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size), 可選) — 模型編碼器最後一層的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每個層的輸出處的隱藏狀態，以及初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器在注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均。

序列到序列語言模型輸出的基類。

NextSentencePredictorOutput

class transformers.modeling_outputs.NextSentencePredictorOutput

引數

loss (torch.FloatTensor，形狀為 (1,), 可選, 當提供 next_sentence_label 時返回) — 下一序列預測（分類）損失。
logits (torch.FloatTensor，形狀為(batch_size, 2)) — 下一個序列預測（分類）頭的預測分數（SoftMax之前的真/假延續分數）。
hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

模型在每個層輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之後的注意力權重，用於計算自注意力頭中的加權平均值。

預測兩個句子是否連續的模型輸出的基類。

SequenceClassifierOutput

class transformers.modeling_outputs.SequenceClassifierOutput

引數

loss (torch.FloatTensor，形狀為(1,)，可選，當提供labels時返回) — 分類（如果config.num_labels==1，則為迴歸）損失。
logits (torch.FloatTensor，形狀為(batch_size, config.num_labels)) — 分類（如果config.num_labels==1，則為迴歸）分數（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

模型在每個層輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之後的注意力權重，用於計算自注意力頭中的加權平均值。

句子分類模型輸出的基類。

Seq2SeqSequenceClassifierOutput

class transformers.modeling_outputs.Seq2SeqSequenceClassifierOutput

引數

loss (torch.FloatTensor，形狀為(1,)，可選，當提供label時返回) — 分類（如果config.num_labels==1，則為迴歸）損失。
logits (torch.FloatTensor，形狀為(batch_size, config.num_labels)) — 分類（如果config.num_labels==1，則為迴歸）分數（SoftMax之前）。
past_key_values (EncoderDecoderCache, 可選，當傳入use_cache=True或config.use_cache=True時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見past_key_values輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

解碼器在每個層輸出處的隱藏狀態，以及初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力softmax之後，用於計算自注意力頭中的加權平均值。
cross_attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力softmax之後，用於計算交叉注意力頭中的加權平均值。
encoder_last_hidden_state (torch.FloatTensor，形狀為(batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

編碼器在每個層輸出處的隱藏狀態，以及初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力softmax之後，用於計算自注意力頭中的加權平均值。

序列到序列句子分類模型輸出的基類。

MultipleChoiceModelOutput

class transformers.modeling_outputs.MultipleChoiceModelOutput

引數

loss (torch.FloatTensor，形狀為(1,)，可選，當提供labels時返回) — 分類損失。
logits (torch.FloatTensor，形狀為(batch_size, num_choices)) — num_choices 是輸入張量的第二個維度。（參見上面的input_ids）。

分類分數（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

模型在每個層輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之後的注意力權重，用於計算自注意力頭中的加權平均值。

多項選擇模型輸出的基類。

TokenClassifierOutput

class transformers.modeling_outputs.TokenClassifierOutput

引數

loss (torch.FloatTensor，形狀為(1,)，可選，當提供labels時返回) — 分類損失。
logits (torch.FloatTensor，形狀為(batch_size, sequence_length, config.num_labels)) — 分類分數（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

模型在每個層輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之後的注意力權重，用於計算自注意力頭中的加權平均值。

Token分類模型輸出的基類。

QuestionAnsweringModelOutput

class transformers.modeling_outputs.QuestionAnsweringModelOutput

( loss: typing.Optional[torch.FloatTensor] = None start_logits: typing.Optional[torch.FloatTensor] = None end_logits: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

loss (torch.FloatTensor，形狀為(1,)，可選，當提供labels時返回) — 總跨度提取損失是起始位置和結束位置的交叉熵之和。
start_logits (torch.FloatTensor，形狀為(batch_size, sequence_length)) — 跨度起始分數（SoftMax之前）。
end_logits (torch.FloatTensor，形狀為(batch_size, sequence_length)) — 跨度結束分數（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

模型在每個層輸出處的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之後的注意力權重，用於計算自注意力頭中的加權平均值。

問答模型輸出的基類。

Seq2SeqQuestionAnsweringModelOutput

class transformers.modeling_outputs.Seq2SeqQuestionAnsweringModelOutput

( loss: typing.Optional[torch.FloatTensor] = None start_logits: typing.Optional[torch.FloatTensor] = None end_logits: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None decoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None decoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_last_hidden_state: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

loss (torch.FloatTensor，形狀為(1,)，可選，當提供labels時返回) — 總跨度提取損失是起始位置和結束位置的交叉熵之和。
start_logits (torch.FloatTensor，形狀為(batch_size, sequence_length)) — 跨度起始分數（SoftMax之前）。
end_logits (torch.FloatTensor，形狀為(batch_size, sequence_length)) — 跨度結束分數（SoftMax之前）。
past_key_values (EncoderDecoderCache, 可選，當傳入use_cache=True或config.use_cache=True時返回) — 這是一個 EncoderDecoderCache 例項。更多詳情，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見past_key_values輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

解碼器在每個層輸出處的隱藏狀態，以及初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力softmax之後，用於計算自注意力頭中的加權平均值。
cross_attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力softmax之後，用於計算交叉注意力頭中的加權平均值。
encoder_last_hidden_state (torch.FloatTensor，形狀為(batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可選，當傳入output_hidden_states=True或config.output_hidden_states=True時返回) — torch.FloatTensor 的元組（一個用於嵌入層（如果模型有嵌入層）的輸出，加上每個層的輸出）的形狀為(batch_size, sequence_length, hidden_size)。

編碼器在每個層輸出處的隱藏狀態，以及初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor), 可選，當傳入output_attentions=True或config.output_attentions=True時返回) — torch.FloatTensor 的元組（每層一個）的形狀為(batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力softmax之後，用於計算自注意力頭中的加權平均值。

序列到序列問答模型輸出的基類。

Seq2SeqSpectrogramOutput

class transformers.modeling_outputs.Seq2SeqSpectrogramOutput