Transformers 文件

XLNet

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

XLNet

概述

XLNet 模型由 Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov 和 Quoc V. Le 在 XLNet: Generalized Autoregressive Pretraining for Language Understanding 中提出。XLNet 是 Transformer-XL 模型的擴充套件，使用自迴歸方法進行預訓練，透過最大化輸入序列分解順序的所有排列的預期似然來學習雙向上下文。

論文摘要如下：

基於去噪自編碼的預訓練方法（如 BERT）具有建模雙向上下文的能力，因此其效能優於基於自迴歸語言建模的預訓練方法。然而，BERT 依賴於用掩碼破壞輸入，忽略了掩碼位置之間的依賴關係，並存在預訓練-微調不匹配的問題。鑑於這些優缺點，我們提出了 XLNet，一種廣義自迴歸預訓練方法，它 (1) 透過最大化分解順序的所有排列的預期似然來學習雙向上下文，並且 (2) 由於其自迴歸公式，克服了 BERT 的侷限性。此外，XLNet 將 Transformer-XL（最先進的自迴歸模型）的思想整合到預訓練中。經驗證明，在可比較的實驗設定下，XLNet 在 20 項任務中（包括問答、自然語言推理、情感分析和文件排序）的效能均優於 BERT，通常是大幅超越。

此模型由 thomwolf 貢獻。原始程式碼可在此處找到。

使用技巧

特定的注意力模式可以在訓練和測試時使用 perm_mask 輸入進行控制。
由於在各種分解順序上訓練一個完全自迴歸模型存在困難，XLNet 僅使用部分輸出 token 作為目標進行預訓練，這些 token 是透過 target_mapping 輸入選擇的。
要將 XLNet 用於順序解碼（即非完全雙向設定），請使用 perm_mask 和 target_mapping 輸入來控制注意力範圍和輸出（請參閱 *examples/pytorch/text-generation/run_generation.py* 中的示例）
XLNet 是少數沒有序列長度限制的模型之一。
XLNet 不是傳統的自迴歸模型，但它使用了一種基於此的訓練策略。它會對句子中的 token 進行排列，然後允許模型使用最後 n 個 token 來預測第 n+1 個 token。由於所有這些都是透過掩碼完成的，因此句子實際上是按正確順序輸入到模型中的，但 XLNet 不會掩蓋前 n 個 token 以預測 n+1，而是使用一個掩碼來隱藏給定排列 1, ..., 序列長度中前面的 token。
XLNet 還使用與 Transformer-XL 相同的迴圈機制來建立長期依賴關係。

資源

XLNetConfig

class transformers.XLNetConfig

< 來源 >

( vocab_size = 32000 d_model = 1024 n_layer = 24 n_head = 16 d_inner = 4096 ff_activation = 'gelu' untie_r = True attn_type = 'bi' initializer_range = 0.02 layer_norm_eps = 1e-12 dropout = 0.1 mem_len = 512 reuse_len = None use_mems_eval = True use_mems_train = False bi_data = False clamp_len = -1 same_length = False summary_type = 'last' summary_use_proj = True summary_activation = 'tanh' summary_last_dropout = 0.1 start_n_top = 5 end_n_top = 5 pad_token_id = 5 bos_token_id = 1 eos_token_id = 2 **kwargs )

引數

vocab_size (int, 可選, 預設為 32000) — XLNet 模型的詞彙表大小。定義了呼叫 XLNetModel 或 TFXLNetModel 時傳遞的 inputs_ids 可以表示的不同 token 的數量。
d_model (int, 可選, 預設為 1024) — 編碼器層和池化器層的維度。
n_layer (int, 可選, 預設為 24) — Transformer 編碼器中的隱藏層數量。
n_head (int, 可選, 預設為 16) — Transformer 編碼器中每個注意力層的注意力頭數量。
d_inner (int, 可選, 預設為 4096) — Transformer 編碼器中“中間”（通常稱為前饋）層的維度。
ff_activation (str 或 Callable, 可選, 預設為 "gelu") — 非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"silu" 和 "gelu_new"。
untie_r (bool, 可選, 預設為 True) — 是否取消相對位置偏差的繫結。
attn_type (str, 可選, 預設為 "bi") — 模型使用的注意力型別。XLNet 設定為 "bi"，Transformer-XL 設定為 "uni"。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態分佈初始化器的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon 值。
dropout (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化器中所有全連線層的 dropout 機率。
mem_len (int 或 None, 可選) — 快取的 token 數量。在之前的正向傳播中已經預計算的鍵/值對不會重新計算。有關更多資訊，請參閱快速入門。
reuse_len (int, 可選) — 當前批次中要快取並在將來重用的 token 數量。
bi_data (bool, 可選, 預設為 False) — 是否使用雙向輸入管道。通常在預訓練期間設定為 True，在微調期間設定為 False。
clamp_len (int, 可選, 預設為 -1) — 限制所有相對距離大於 clamp_len。將此屬性設定為 -1 表示不進行限制。
same_length (bool, 可選, 預設為 False) — 是否對每個 token 使用相同的注意力長度。
summary_type (str, 可選, 預設為 “last”) — 序列摘要時使用的引數。在序列分類和多項選擇模型中使用。

必須是以下選項之一：
- "last"：取最後一個 token 的隱藏狀態（如 XLNet）。
- "first"：取第一個 token 的隱藏狀態（如 BERT）。
- "mean"：取所有 token 隱藏狀態的平均值。
- "cls_index"：提供分類 token 位置的張量（如 GPT/GPT-2）。
- "attn"：目前未實現，使用多頭注意力。
summary_use_proj (bool, 可選, 預設為 True) — 序列摘要時使用的引數。在序列分類和多項選擇模型中使用。

向量提取後是否新增投影。
summary_activation (str, 可選) — 序列摘要時使用的引數。在序列分類和多項選擇模型中使用。

如果輸出需要 tanh 啟用，則傳遞 "tanh"，任何其他值將導致沒有啟用。
summary_proj_to_labels (boo, 可選, 預設為 True) — 在序列分類和多項選擇模型中使用。

投影輸出應具有 config.num_labels 或 config.hidden_size 類。
summary_last_dropout (float, 可選, 預設為 0.1) — 在序列分類和多項選擇模型中使用。

投影和啟用後使用的 dropout 比率。
start_n_top (int, 可選, 預設為 5) — 在 SQuAD 評估指令碼中使用。
end_n_top (int, 可選, 預設為 5) — 用於 SQuAD 評估指令碼中。
use_mems_eval (bool, 可選, 預設為 True) — 模型在評估模式下是否使用迴圈記憶機制。
use_mems_train (bool, 可選, 預設為 False) — 模型在訓練模式下是否使用迴圈記憶機制。

對於預訓練，建議將 use_mems_train 設定為 True。對於微調，建議將 use_mems_train 設定為 False，如此處所述。如果 use_mems_train 設定為 True，則必須確保訓練批次已正確預處理，例如 batch_1 = [[This line is], [This is the]] 和 batch_2 = [[ the first line], [ second line]]，並且所有批次的大小都相等。

這是一個配置類，用於儲存 XLNetModel 或 TFXLNetModel 的配置。它用於根據指定的引數例項化 XLNet 模型，定義模型架構。使用預設值例項化配置將產生類似於 xlnet/xlnet-large-cased 架構的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關這些方法的更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import XLNetConfig, XLNetModel

>>> # Initializing a XLNet configuration
>>> configuration = XLNetConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = XLNetModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

XLNetTokenizer

類 transformers.XLNetTokenizer

< 來源 >

( vocab_file do_lower_case = False remove_space = True keep_accents = False bos_token = '<s>' eos_token = '</s>' unk_token = '<unk>' sep_token = '<sep>' pad_token = '<pad>' cls_token = '<cls>' mask_token = '<mask>' additional_special_tokens = ['<eop>', '<eod>'] sp_model_kwargs: typing.Optional[dict[str, typing.Any]] = None **kwargs )

引數

vocab_file (str) — SentencePiece 檔案（通常以 .spm 副檔名結尾），包含例項化分詞器所需的詞彙表。
do_lower_case (bool, 可選, 預設為 False) — 分詞時是否將輸入轉換為小寫。
remove_space (bool, 可選, 預設為 True) — 分詞時是否去除文字中的空格（刪除字串前後多餘的空格）。
keep_accents (bool, 可選, 預設為 False) — 分詞時是否保留重音符號。
bos_token (str, 可選, 預設為 "<s>") — 預訓練期間使用的序列開始符。可用作序列分類標記。

使用特殊標記構建序列時，這不是序列開頭使用的標記。使用的標記是 cls_token。
eos_token (str, 可選, 預設為 "</s>") — 序列結束符。

使用特殊標記構建序列時，這不是序列結尾使用的標記。使用的標記是 sep_token。
unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記不能轉換為 ID，而是設定為此標記。
sep_token (str, 可選, 預設為 "<sep>") — 分隔符標記，用於從多個序列構建序列時，例如用於序列分類的兩個序列或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
pad_token (str, 可選, 預設為 "<pad>") — 用於填充的標記，例如在對不同長度的序列進行批處理時。
cls_token (str, 可選, 預設為 "<cls>") — 分類器標記，用於序列分類（對整個序列進行分類而非按標記分類）。它是使用特殊標記構建的序列的第一個標記。
mask_token (str, 可選, 預設為 "<mask>") — 用於遮蓋值的標記。這是使用遮蓋語言建模訓練此模型時使用的標記。這是模型將嘗試預測的標記。
additional_special_tokens (list[str], 可選, 預設為 ['<eop>', '<eod>']) — 分詞器使用的附加特殊標記。
sp_model_kwargs (dict, 可選) — 將傳遞給 SentencePieceProcessor.__init__() 方法。可用於設定 SentencePiece 的 Python 包裝器，其中包括：
- enable_sampling: 啟用子詞正則化。
- nbest_size: Unigram 的取樣引數。對於 BPE-Dropout 無效。
  - nbest_size = {0,1}: 不執行取樣。
  - nbest_size > 1: 從 nbest_size 結果中取樣。
  - nbest_size < 0: 假設 nbest_size 無限，並使用前向濾波和後向取樣演算法從所有假設（格）中取樣。
- alpha: Unigram 取樣的平滑引數，以及 BPE-dropout 中合併操作的 dropout 機率。
sp_model (SentencePieceProcessor) — 用於所有轉換（字串、標記和 ID）的 SentencePiece 處理器。

構建 XLNet 分詞器。基於 SentencePiece。

此分詞器繼承自 PreTrainedTokenizer，其中包含大部分主要方法。使用者應參閱此超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 要新增特殊標記的 ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。

list[int]

帶有適當特殊標記的輸入ID列表。

透過拼接和新增特殊標記，從序列或序列對構建用於序列分類任務的模型輸入。XLNet 序列具有以下格式

單個序列：X <sep> <cls>
序列對：A <sep> B <sep> <cls>

get_special_tokens_mask

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → list[int]

引數

token_ids_0 (list[int]) — ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。
already_has_special_tokens (bool, 可選, 預設為 False) — 標記列表是否已使用模型的特殊標記進行格式化。

list[int]

一個範圍為 [0, 1] 的整數列表：1 表示特殊標記，0 表示序列標記。

從沒有新增特殊標記的標記列表中檢索序列ID。此方法在使用分詞器prepare_for_model方法新增特殊標記時呼叫。

create_token_type_ids_from_sequences

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。

list[int]

根據給定序列的 token type IDs 列表。

從傳遞的兩個序列建立用於序列對分類任務的掩碼。一個 XLNet

如果 token_ids_1 為 None，則此方法僅返回掩碼的第一部分（0s）。

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence    | second sequence |

如果 token_ids_1 為 None，則此方法僅返回掩碼的第一部分（0s）。

save_vocabulary

< 來源 >

( save_directory: str filename_prefix: typing.Optional[str] = None )

XLNetTokenizerFast

類 transformers.XLNetTokenizerFast

< 來源 >

( vocab_file = None tokenizer_file = None do_lower_case = False remove_space = True keep_accents = False bos_token = '<s>' eos_token = '</s>' unk_token = '<unk>' sep_token = '<sep>' pad_token = '<pad>' cls_token = '<cls>' mask_token = '<mask>' additional_special_tokens = ['<eop>', '<eod>'] **kwargs )

引數

vocab_file (str) — SentencePiece 檔案（通常以 .spm 副檔名結尾），包含例項化分詞器所需的詞彙表。
do_lower_case (bool, 可選, 預設為 True) — 分詞時是否將輸入轉換為小寫。
remove_space (bool, 可選, 預設為 True) — 分詞時是否去除文字中的空格（刪除字串前後多餘的空格）。
keep_accents (bool, 可選, 預設為 False) — 分詞時是否保留重音符號。
bos_token (str, 可選, 預設為 "<s>") — 預訓練期間使用的序列開始符。可用作序列分類標記。

使用特殊標記構建序列時，這不是序列開頭使用的標記。使用的標記是 cls_token。
eos_token (str, 可選, 預設為 "</s>") — 序列結束符。

使用特殊標記構建序列時，這不是序列結尾使用的標記。使用的標記是 sep_token。
unk_token (str, 可選, 預設為 "<unk>") — 未知標記。不在詞彙表中的標記不能轉換為 ID，而是設定為此標記。
sep_token (str, 可選, 預設為 "<sep>") — 分隔符標記，用於從多個序列構建序列時，例如用於序列分類的兩個序列或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
pad_token (str, 可選, 預設為 "<pad>") — 用於填充的標記，例如在對不同長度的序列進行批處理時。
cls_token (str, 可選, 預設為 "<cls>") — 分類器標記，用於序列分類（對整個序列進行分類而非按標記分類）。它是使用特殊標記構建的序列的第一個標記。
mask_token (str, 可選, 預設為 "<mask>") — 用於遮蓋值的標記。這是使用遮蓋語言建模訓練此模型時使用的標記。這是模型將嘗試預測的標記。
additional_special_tokens (list[str], 可選, 預設為 ["<eop>", "<eod>"]) — 分詞器使用的附加特殊標記。
sp_model (SentencePieceProcessor) — 用於所有轉換（字串、標記和 ID）的 SentencePiece 處理器。

構建一個“快速”XLNet 分詞器（由 HuggingFace 的 tokenizers 庫支援）。基於 Unigram。

此分詞器繼承自 PreTrainedTokenizerFast，其中包含大部分主要方法。使用者應參閱此超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 要新增特殊標記的 ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。

list[int]

帶有適當特殊標記的輸入ID列表。

透過拼接和新增特殊標記，從序列或序列對構建用於序列分類任務的模型輸入。XLNet 序列具有以下格式

單個序列：X <sep> <cls>
序列對：A <sep> B <sep> <cls>

create_token_type_ids_from_sequences

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — ID 列表。
token_ids_1 (list[int], 可選) — 序列對的第二個 ID 列表（可選）。

list[int]

根據給定序列的 token type IDs 列表。

從傳遞的兩個序列建立用於序列對分類任務的掩碼。一個 XLNet

如果 token_ids_1 為 None，則此方法僅返回掩碼的第一部分（0s）。

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence    | second sequence |

如果 token_ids_1 為 None，則此方法僅返回掩碼的第一部分（0s）。

XLNet 特定輸出

類 transformers.models.xlnet.modeling_xlnet.XLNetModelOutput

< 來源 >

( last_hidden_state: FloatTensor mems: typing.Optional[list[torch.FloatTensor]] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

last_hidden_state (形狀為 (batch_size, num_predict, hidden_size) 的 torch.FloatTensor) — 模型最後一層的隱藏狀態序列。

num_predict 對應於 target_mapping.shape[1]。如果 target_mapping 為 None，則 num_predict 對應於 sequence_length。
mems (list[torch.FloatTensor] of length config.n_layers) — 包含預先計算的隱藏狀態。可用於（參閱 mems 輸入）加速順序解碼。已提供給此模型的歷史令牌ID不應作為 input_ids 傳入，因為它們已被計算。
hidden_states (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則其中一個用於嵌入層輸出，加上每個層的一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力softmax後的注意力權重，用於計算自注意力頭中的加權平均。

XLNetModel 的輸出型別。

Transformers

XLNet

概述

使用技巧

資源

XLNetConfig

class transformers.XLNetConfig

XLNetTokenizer

類 transformers.XLNetTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

XLNetTokenizerFast

類 transformers.XLNetTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

XLNet 特定輸出

類 transformers.models.xlnet.modeling_xlnet.XLNetModelOutput

class transformers.models.xlnet.modeling_xlnet.XLNetLMHeadModelOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForSequenceClassificationOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForMultipleChoiceOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForTokenClassificationOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringSimpleOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetModelOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetLMHeadModelOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForSequenceClassificationOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForMultipleChoiceOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForTokenClassificationOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForQuestionAnsweringSimpleOutput

XLNetModel

class transformers.XLNetModel

前向傳播

XLNetLMHeadModel

class transformers.XLNetLMHeadModel

前向傳播

XLNetForSequenceClassification

類 transformers.XLNetForSequenceClassification

前向傳播

XLNetForMultipleChoice

類 transformers.XLNetForMultipleChoice

前向傳播

XLNetForTokenClassification

類 transformers.XLNetForTokenClassification

前向傳播

XLNetForQuestionAnsweringSimple

類 transformers.XLNetForQuestionAnsweringSimple

前向傳播

XLNetForQuestionAnswering

class transformers.XLNetForQuestionAnswering

前向傳播

TFXLNetModel

class transformers.TFXLNetModel

呼叫

TFXLNetLMHeadModel

class transformers.TFXLNetLMHeadModel

呼叫

TFXLNetForSequenceClassification

class transformers.TFXLNetForSequenceClassification

呼叫

TFXLNetForMultipleChoice

class transformers.TFXLNetForMultipleChoice

呼叫

TFXLNetForTokenClassification

class transformers.TFXLNetForTokenClassification

呼叫

TFXLNetForQuestionAnsweringSimple

class transformers.TFXLNetForQuestionAnsweringSimple

呼叫