Transformers 文件

XLM

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

XLM

XLM 透過兩種方法展示了跨語言預訓練：對單一語言進行無監督訓練，以及使用跨語言語言模型目標對多種語言進行有監督訓練。XLM 模型支援因果語言建模目標、掩碼語言建模和翻譯語言建模（這是 BERT 掩碼語言建模目標對多語言輸入的擴充套件）。

你可以在 Facebook AI 社群組織下找到所有原始的 XLM 檢查點。

點選右側邊欄中的 XLM 模型，檢視更多關於如何將 XLM 應用於不同跨語言任務（如分類、翻譯和問答）的示例。

以下示例演示瞭如何使用 Pipeline、AutoModel 以及從命令列預測 <mask> 標記。

流水線

自動模型

Transformers CLI

XLMConfig

class transformers.XLMConfig

< 原始碼 >

( vocab_size = 30145 emb_dim = 2048 n_layers = 12 n_heads = 16 dropout = 0.1 attention_dropout = 0.1 gelu_activation = True sinusoidal_embeddings = False causal = False asm = False n_langs = 1 use_lang_emb = True max_position_embeddings = 512 embed_init_std = 0.02209708691207961 layer_norm_eps = 1e-12 init_std = 0.02 bos_index = 0 eos_index = 1 pad_index = 2 unk_index = 3 mask_index = 5 is_encoder = True summary_type = 'first' summary_use_proj = True summary_activation = None summary_proj_to_labels = True summary_first_dropout = 0.1 start_n_top = 5 end_n_top = 5 mask_token_id = 0 lang_id = 0 pad_token_id = 2 bos_token_id = 0 **kwargs )

引數

vocab_size (int，可選，預設為 30145) — BERT 模型的詞彙表大小。定義在呼叫 XLMModel 或 TFXLMModel 時，可以透過 inputs_ids 表示的不同標記的數量。
emb_dim (int，可選，預設為 2048) — 編碼器層和池化層的維度。
n_layer (int，可選，預設為 12) — Transformer 編碼器中的隱藏層數。
n_head (int，可選，預設為 16) — Transformer 編碼器中每個注意力層的注意力頭數量。
dropout (float，可選，預設為 0.1) — 嵌入層、編碼器和池化層中所有全連線層的丟棄機率。
attention_dropout (float，可選，預設為 0.1) — 注意力機制的丟棄機率。
gelu_activation (bool，可選，預設為 True) — 是否使用 gelu 啟用函式而不是 relu。
sinusoidal_embeddings (bool，可選，預設為 False) — 是否使用正弦位置嵌入而不是絕對位置嵌入。
causal (bool，可選，預設為 False) — 模型是否應以因果方式執行。因果模型使用三角形注意力掩碼，以便只關注左側上下文，而不是雙向上下文。
asm (bool，可選，預設為 False) — 是否為預測層使用自適應對數 softmax 投影層，而不是線性層。
n_langs (int，可選，預設為 1) — 模型處理的語言數量。對於單語模型，設定為 1。
use_lang_emb (bool，可選，預設為 True) — 是否使用語言嵌入。一些模型使用額外的語言嵌入，請參閱多語言模型頁面瞭解如何使用它們。
max_position_embeddings (int，可選，預設為 512) — 此模型可能使用的最大序列長度。通常將其設定為較大的值以備不時之需（例如，512、1024 或 2048）。
embed_init_std (float，可選，預設為 2048^-0.5) — 用於初始化嵌入矩陣的 truncated_normal_initializer 的標準差。
init_std (int，可選，預設為 50257) — 用於初始化除嵌入矩陣外的所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float，可選，預設為 1e-12) — 層歸一化層使用的 epsilon 值。
bos_index (int，可選，預設為 0) — 詞彙表中句子開頭標記的索引。
eos_index (int，可選，預設為 1) — 詞彙表中句子結束標記的索引。
pad_index (int，可選，預設為 2) — 詞彙表中填充標記的索引。
unk_index (int，可選，預設為 3) — 詞彙表中未知標記的索引。
mask_index (int，可選，預設為 5) — 詞彙表中掩碼標記的索引。
is_encoder(bool， 可選，預設為 True) — 初始化的模型是否應為 Transformer 編碼器或解碼器，如 Vaswani 等人論文中所見。
summary_type (string, optional, 預設為 “first”) — 用於序列摘要的引數。在序列分類和多項選擇模型中使用。

必須是以下選項之一：
- "last": 取最後一個詞元的隱藏狀態（如 XLNet）。
- "first": 取第一個詞元的隱藏狀態（如 BERT）。
- "mean": 取所有詞元隱藏狀態的平均值。
- "cls_index": 提供一個分類詞元位置的張量（如 GPT/GPT-2）。
- "attn": 目前未實現，使用多頭注意力。
summary_use_proj (bool, optional, 預設為 True) — 用於序列摘要的引數。在序列分類和多項選擇模型中使用。

是否在向量提取後新增一個投影層。
summary_activation (str, optional) — 用於序列摘要的引數。在序列分類和多項選擇模型中使用。

傳遞 "tanh" 以對輸出應用 tanh 啟用函式，任何其他值都將不使用啟用函式。
summary_proj_to_labels (bool, optional, 預設為 True) — 在序列分類和多項選擇模型中使用。

投影輸出的類別數是 config.num_labels 還是 config.hidden_size。
summary_first_dropout (float, optional, 預設為 0.1) — 在序列分類和多項選擇模型中使用。

在投影和啟用後使用的 dropout 比率。
start_n_top (int, optional, 預設為 5) — 在 SQuAD 評估指令碼中使用。
end_n_top (int, optional, 預設為 5) — 在 SQuAD 評估指令碼中使用。
mask_token_id (int, optional, 預設為 0) — 模型無關的引數，用於在 MLM 上下文中生成文字時識別被掩碼的詞元。
lang_id (int, optional, 預設為 1) — 模型使用的語言 ID。此引數在以給定語言生成文字時使用。

這是一個配置類，用於儲存 XLMModel 或 TFXLMModel 的配置。它用於根據指定的引數例項化一個 XLM 模型，定義了模型的架構。使用預設值例項化一個配置將產生一個與 FacebookAI/xlm-mlm-en-2048 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型的輸出。更多資訊請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import XLMConfig, XLMModel

>>> # Initializing a XLM configuration
>>> configuration = XLMConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = XLMModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

XLMTokenizer

class transformers.XLMTokenizer

< 來源 >

( vocab_file merges_file unk_token = '<unk>' bos_token = '<s>' sep_token = '</s>' pad_token = '<pad>' cls_token = '</s>' mask_token = '<special1>' additional_special_tokens = ['<special0>', '<special1>', '<special2>', '<special3>', '<special4>', '<special5>', '<special6>', '<special7>', '<special8>', '<special9>'] lang2id = None id2lang = None do_lowercase_and_remove_accent = True **kwargs )

引數

vocab_file (str) — 詞彙表文件。
merges_file (str) — 合併檔案。
unk_token (str, optional, 預設為 "<unk>") — 未知詞元。詞彙表中不存在的詞元無法轉換為 ID，將被設定為此詞元。
bos_token (str, optional, 預設為 "<s>") — 在預訓練期間使用的序列開始詞元。可以用作序列分類器詞元。

當使用特殊詞元構建序列時，這不是用於序列開始的詞元。使用的詞元是 cls_token。
sep_token (str, optional, 預設為 "</s>") — 分隔符詞元，用於從多個序列構建一個序列時使用，例如用於序列分類的兩個序列，或用於問答任務的文字和問題。它也用作使用特殊詞元構建的序列的最後一個詞元。
pad_token (str, optional, 預設為 "<pad>") — 用於填充的詞元，例如當批處理不同長度的序列時使用。
cls_token (str, optional, 預設為 "</s>") — 分類器詞元，用於進行序列分類（對整個序列進行分類，而不是逐詞元分類）。當使用特殊詞元構建序列時，它是序列的第一個詞元。
mask_token (str, optional, 預設為 "<special1>") — 用於掩碼值的詞元。這是使用掩碼語言建模訓練此模型時使用的詞元。模型將嘗試預測此詞元。
additional_special_tokens (List[str], optional, 預設為 ['<special0>', '<special1>', '<special2>', '<special3>', '<special4>', '<special5>', '<special6>', '<special7>', '<special8>', '<special9>']) — 附加特殊詞元列表。
lang2id (Dict[str, int], optional) — 將語言字串識別符號對映到其 ID 的字典。
id2lang (Dict[int, str], optional) — 將語言 ID 對映到其字串識別符號的字典。
do_lowercase_and_remove_accent (bool, optional, 預設為 True) — 分詞時是否轉換為小寫並移除重音符號。

構建一個 XLM 分詞器。基於位元組對編碼（Byte-Pair Encoding）。分詞過程如下：

對大多數支援的語言進行 Moses 預處理和分詞。
對中文（Jieba）、日文（KyTea）和泰文（PyThaiNLP）進行特定語言的分詞。
可選地將所有輸入文字轉換為小寫並進行規範化。
引數 `special_tokens` 和函式 `set_special_tokens` 可用於向詞彙表新增額外的符號（如 “classify”）。
如果提供了 `lang2id` 屬性（對於預訓練詞彙表會自動設定），它會將模型支援的語言與其 ID 進行對映。
如果提供了 `id2lang` 屬性（對於預訓練詞彙表會自動設定），它會進行反向對映。

此分詞器繼承自 PreTrainedTokenizer，其中包含了大部分主要方法。使用者應參考該超類以獲取有關這些方法的更多資訊。

build_inputs_with_special_tokens

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → List[int]

引數

token_ids_0 (List[int]) — 將要新增特殊詞元的 ID 列表。
token_ids_1 (List[int], optional) — 可選的第二個 ID 列表，用於序列對。

List[int]

帶有適當特殊標記的輸入ID列表。

透過連線和新增特殊詞元，為序列分類任務從一個序列或一對序列構建模型輸入。XLM 序列具有以下格式

單個序列：<s> X </s>
序列對：<s> A </s> B </s>

get_special_tokens_mask

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → List[int]

引數

token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], optional) — 可選的第二個 ID 列表，用於序列對。
already_has_special_tokens (bool, optional, 預設為 False) — 詞元列表是否已經為模型格式化了特殊詞元。

List[int]

一個範圍為 [0, 1] 的整數列表：1 表示特殊標記，0 表示序列標記。

從沒有新增特殊標記的標記列表中檢索序列ID。此方法在使用分詞器prepare_for_model方法新增特殊標記時呼叫。

create_token_type_ids_from_sequences

< 來源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 第一個分詞後的序列。
token_ids_1 (list[int], optional) — 第二個分詞後的序列。

list[int]

標記型別 ID。

建立與傳入序列對應的標記型別 ID。什麼是標記型別 ID？

如果模型有特殊的構建方式，應在子類中重寫此方法。

save_vocabulary

< 來源 >

( save_directory: str filename_prefix: typing.Optional[str] = None )

XLM 特定輸出

class transformers.models.xlm.modeling_xlm.XLMForQuestionAnsweringOutput

< 來源 >

( loss: typing.Optional[torch.FloatTensor] = None start_top_log_probs: typing.Optional[torch.FloatTensor] = None start_top_index: typing.Optional[torch.LongTensor] = None end_top_log_probs: typing.Optional[torch.FloatTensor] = None end_top_index: typing.Optional[torch.LongTensor] = None cls_logits: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

loss (torch.FloatTensor，形狀為 (1,), optional, 如果同時提供了 start_positions 和 end_positions，則返回) — 分類損失，是開始詞元、結束詞元（以及如果提供了 is_impossible）分類損失的總和。
start_top_log_probs (torch.FloatTensor，形狀為 (batch_size, config.start_n_top), optional, 如果未提供 start_positions 或 end_positions，則返回) — top config.start_n_top 個開始詞元可能性的對數機率（束搜尋）。
start_top_index (torch.LongTensor，形狀為 (batch_size, config.start_n_top), optional, 如果未提供 start_positions 或 end_positions，則返回) — top config.start_n_top 個開始詞元可能性的索引（束搜尋）。
end_top_log_probs (torch.FloatTensor，形狀為 (batch_size, config.start_n_top * config.end_n_top), optional, 如果未提供 start_positions 或 end_positions，則返回) — top config.start_n_top * config.end_n_top 個結束詞元可能性的對數機率（束搜尋）。
end_top_index (torch.LongTensor，形狀為 (batch_size, config.start_n_top * config.end_n_top), optional, 如果未提供 start_positions 或 end_positions，則返回) — top config.start_n_top * config.end_n_top 個結束詞元可能性的索引（束搜尋）。
cls_logits (torch.FloatTensor，形狀為 (batch_size,), optional, 如果未提供 start_positions 或 end_positions，則返回) — 答案的 is_impossible 標籤的對數機率。
hidden_states (tuple[torch.FloatTensor, ...], optional, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，然後是每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每一層輸出的隱藏狀態，以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor, ...], optional, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之後的注意力權重，用於計算自注意力頭中的加權平均值。

使用 `XLMSQuADHead` 的問答模型輸出的基類。

Pytorch

隱藏 Pytorch 內容

XLMModel

class transformers.XLMModel

< 來源 >

( config )

引數

config (XLMModel) — 模型配置類，包含模型的所有引數。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

裸的 Xlm 模型，輸出原始的隱藏狀態，頂部沒有任何特定的頭。

該模型繼承自 PreTrainedModel。請檢視超類的文件，瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入的大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None langs: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None lengths: typing.Optional[torch.Tensor] = None cache: typing.Optional[dict[str, torch.Tensor]] = None head_mask: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) → transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length), optional) — 輸入序列在詞彙表中的詞元索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length), optional) — 掩碼，用於避免對填充詞元索引執行注意力。掩碼值選自 [0, 1]：
- 1 表示**未被掩碼**的詞元，
- 0 表示**被掩碼**的詞元。
什麼是注意力掩碼？
langs (torch.LongTensor，形狀為 (batch_size, sequence_length), optional) — 一個並行的詞元序列，用於指示輸入中每個詞元的語言。索引是語言 ID，可以透過使用模型配置中提供的兩個轉換對映從語言名稱中獲得（僅為多語言模型提供）。更確切地說，“語言名稱到語言 ID” 的對映在 `model.config.lang2id` 中（這是一個字串到整數的字典），而 “語言 ID 到語言名稱” 的對映在 `model.config.id2lang` 中（整數到字串的字典）。

詳細用法示例請參見多語言文件。
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 片段詞元（token）索引，用於表示輸入的第一部分和第二部分。索引在 [0, 1] 中選擇：
- 0 對應於 *句子 A* 的詞元，
- 1 對應於 *句子 B* 的詞元。
什麼是詞元型別 ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
lengths (torch.LongTensor，形狀為 (batch_size,)，可選) — 每個句子的長度，可用於避免對填充詞元索引執行注意力計算。您也可以使用 *attention_mask* 達到相同的結果（見上文），此處保留是為了相容性。索引在 [0, ..., input_ids.size(-1)] 中選擇。
cache (dict[str, torch.FloatTensor]，可選) — 字串到 torch.FloatTensor 的字典，包含模型計算的預計算隱藏狀態（注意力塊中的鍵和值）（見下文 cache 輸出）。可用於加速序列解碼。

該字典物件將在前向傳播期間被原地修改，以新增新計算的隱藏狀態。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組中選定的頭無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，您可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果您希望比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為相關向量，這會很有用。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（XLMConfig）和輸入，包含各種元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每層輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

XLMModel 的前向方法，重寫了 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應該呼叫 `Module` 例項而不是這個函式，因為前者會處理執行前處理和後處理步驟，而後者會靜默地忽略它們。

XLMWithLMHeadModel

class transformers.XLMWithLMHeadModel

< 來源 >

( config )

引數

config (XLMWithLMHeadModel) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。

帶有語言模型頭的 XLM 模型 Transformer（在頂部是一個線性層，其權重與輸入嵌入繫結）。

該模型繼承自 PreTrainedModel。請檢視超類的文件，瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入的大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None langs: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None lengths: typing.Optional[torch.Tensor] = None cache: typing.Optional[dict[str, torch.Tensor]] = None head_mask: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列詞元的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力計算的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被遮蔽，
- 0 表示詞元已被遮蔽。
什麼是注意力掩碼？
langs (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 一個並行的詞元序列，用於指示輸入中每個詞元的語言。索引是語言 ID，可以透過使用模型配置中提供的兩個轉換對映從語言名稱中獲取（僅為多語言模型提供）。更準確地說，語言名稱到語言 ID 的對映在 model.config.lang2id（一個字串到整數的字典）中，而 語言 ID 到語言名稱 的對映在 model.config.id2lang（一個整數到字串的字典）中。

請參閱多語言文件中詳細的用法示例。
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 片段詞元（token）索引，用於表示輸入的第一部分和第二部分。索引在 [0, 1] 中選擇：
- 0 對應於 *句子 A* 的詞元，
- 1 對應於 *句子 B* 的詞元。
什麼是詞元型別 ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
lengths (torch.LongTensor，形狀為 (batch_size,)，可選) — 每個句子的長度，可用於避免對填充詞元索引執行注意力計算。您也可以使用 *attention_mask* 達到相同的結果（見上文），此處保留是為了相容性。索引在 [0, ..., input_ids.size(-1)] 中選擇。
cache (dict[str, torch.FloatTensor]，可選) — 字串到 torch.FloatTensor 的字典，包含模型計算的預計算隱藏狀態（注意力塊中的鍵和值）（見下文 cache 輸出）。可用於加速序列解碼。

該字典物件將在前向傳播期間被原地修改，以新增新計算的隱藏狀態。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組中選定的頭無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，您可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果您希望比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為相關向量，這會很有用。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於語言模型的標籤。請注意，標籤在模型內部會被移動，即您可以設定 `labels = input_ids`。索引在 `[-100, 0, ..., config.vocab_size]` 中選擇。所有設定為 `-100` 的標籤都將被忽略（遮蔽），損失僅對 `[0, ..., config.vocab_size]` 中的標籤計算。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.MaskedLMOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（XLMConfig）和輸入，包含各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 掩碼語言建模 (MLM) 損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每層輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

XLMWithLMHeadModel 的前向方法，重寫了 __call__ 特殊方法。

示例

>>> import torch
>>> from transformers import AutoTokenizer, XLMWithLMHeadModel

>>> tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-mlm-en-2048")
>>> model = XLMWithLMHeadModel.from_pretrained("FacebookAI/xlm-mlm-en-2048")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

XLMForSequenceClassification

class transformers.XLMForSequenceClassification

< 來源 >

( config )

引數

config (XLMForSequenceClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法以載入模型權重。

帶有序列分類/迴歸頭的 XLM 模型（在池化輸出之上是一個線性層），例如用於 GLUE 任務。

該模型繼承自 PreTrainedModel。請檢視超類的文件，瞭解該庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入的大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None langs: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None lengths: typing.Optional[torch.Tensor] = None cache: typing.Optional[dict[str, torch.Tensor]] = None head_mask: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列詞元的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力計算的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被遮蔽，
- 0 表示詞元已被遮蔽。
什麼是注意力掩碼？
langs (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 一個並行的詞元序列，用於指示輸入中每個詞元的語言。索引是語言 ID，可以透過使用模型配置中提供的兩個轉換對映從語言名稱中獲取（僅為多語言模型提供）。更準確地說，語言名稱到語言 ID 的對映在 model.config.lang2id（一個字串到整數的字典）中，而 語言 ID 到語言名稱 的對映在 model.config.id2lang（一個整數到字串的字典）中。

請參閱多語言文件中詳細的用法示例。
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 片段詞元（token）索引，用於表示輸入的第一部分和第二部分。索引在 [0, 1] 中選擇：
- 0 對應於 *句子 A* 的詞元，
- 1 對應於 *句子 B* 的詞元。
什麼是詞元型別 ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
lengths (torch.LongTensor，形狀為 (batch_size,)，可選) — 每個句子的長度，可用於避免對填充詞元索引執行注意力計算。您也可以使用 *attention_mask* 達到相同的結果（見上文），此處保留是為了相容性。索引在 [0, ..., input_ids.size(-1)] 中選擇。
cache (dict[str, torch.FloatTensor]，可選) — 字串到 torch.FloatTensor 的字典，包含模型計算的預計算隱藏狀態（注意力塊中的鍵和值）（見下文 cache 輸出）。可用於加速序列解碼。

該字典物件將在前向傳播期間被原地修改，以新增新計算的隱藏狀態。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組中選定的頭無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭未被遮蔽，
- 0 表示頭已被遮蔽。
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，您可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果您希望比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為相關向量，這會很有用。
labels (torch.LongTensor，形狀為 (batch_size,)，可選) — 用於計算序列分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（XLMConfig）和輸入，包含各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每層輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

XLMForSequenceClassification 的前向方法，重寫了 __call__ 特殊方法。

單標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, XLMForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-mlm-en-2048")
>>> model = XLMForSequenceClassification.from_pretrained("FacebookAI/xlm-mlm-en-2048")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = XLMForSequenceClassification.from_pretrained("FacebookAI/xlm-mlm-en-2048", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, XLMForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-mlm-en-2048")
>>> model = XLMForSequenceClassification.from_pretrained("FacebookAI/xlm-mlm-en-2048", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = XLMForSequenceClassification.from_pretrained(
...     "FacebookAI/xlm-mlm-en-2048", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

Transformers

XLM

XLMConfig

class transformers.XLMConfig

XLMTokenizer

class transformers.XLMTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

XLM 特定輸出

class transformers.models.xlm.modeling_xlm.XLMForQuestionAnsweringOutput

XLMModel

class transformers.XLMModel

forward

XLMWithLMHeadModel

class transformers.XLMWithLMHeadModel

forward

XLMForSequenceClassification

class transformers.XLMForSequenceClassification

forward

XLMForMultipleChoice

class transformers.XLMForMultipleChoice

forward

XLMForTokenClassification

class transformers.XLMForTokenClassification

forward

XLMForQuestionAnsweringSimple

class transformers.XLMForQuestionAnsweringSimple

forward

XLMForQuestionAnswering

class transformers.XLMForQuestionAnswering

forward

TFXLMModel

class transformers.TFXLMModel

呼叫

TFXLMWithLMHeadModel

class transformers.TFXLMWithLMHeadModel

呼叫

TFXLMForSequenceClassification

class transformers.TFXLMForSequenceClassification

呼叫

TFXLMForMultipleChoice

class transformers.TFXLMForMultipleChoice

呼叫

TFXLMForTokenClassification

class transformers.TFXLMForTokenClassification

呼叫

TFXLMForQuestionAnsweringSimple

class transformers.TFXLMForQuestionAnsweringSimple

呼叫