Transformers 文件

DeBERTa-v2

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

DeBERTa-v2

概述

DeBERTa 模型由 Pengcheng He、Xiaodong Liu、Jianfeng Gao、Weizhu Chen 在論文 DeBERTa: Decoding-enhanced BERT with Disentangled Attention 中提出。它基於谷歌於 2018 年釋出的 BERT 模型和 Facebook 於 2019 年釋出的 RoBERTa 模型。

它在 RoBERTa 的基礎上，增加了分離式注意力機制和增強的掩碼解碼器，並使用了 RoBERTa 一半的訓練資料進行訓練。

論文摘要如下：

預訓練神經語言模型的最新進展顯著提升了許多自然語言處理 (NLP) 任務的效能。在本文中，我們提出了一種新的模型架構 DeBERTa (Decoding-enhanced BERT with disentangled attention)，它透過兩種新技術改進了 BERT 和 RoBERTa 模型。第一種是分離式注意力機制，其中每個單詞都用兩個向量表示，分別編碼其內容和位置，單詞之間的注意力權重是使用其內容和相對位置的分離矩陣計算的。第二種是使用增強的掩碼解碼器來替換輸出的 softmax 層，以預測用於模型預訓練的被掩碼的標記。我們證明了這兩種技術顯著提高了模型預訓練的效率和下游任務的效能。與 RoBERTa-Large 相比，一個使用一半訓練資料訓練的 DeBERTa 模型在廣泛的 NLP 任務上始終表現更好，在 MNLI 任務上提升了 +0.9% (90.2% vs. 91.1%)，在 SQuAD v2.0 上提升了 +2.3% (88.4% vs. 90.7%)，在 RACE 上提升了 +3.6% (83.2% vs. 86.8%)。DeBERTa 的程式碼和預訓練模型將公開發佈於 https://github.com/microsoft/DeBERTa。

以下資訊直接來自於原始實現倉庫。DeBERTa v2 是 DeBERTa 模型的第二個版本。它包括用於 SuperGLUE 單模型提交的 1.5B 引數模型，並取得了 89.9 的分數，而人類基線為 89.8。您可以在作者的部落格中找到有關此次提交的更多詳細資訊。

v2 版本的新特性

詞彙表 在 v2 版本中，分詞器改為使用一個新的、大小為 128K 的詞彙表，該詞彙表是根據訓練資料構建的。分詞器不再是基於 GPT2 的分詞器，而是基於 sentencepiece 的分詞器。
nGiE(nGram Induced Input Encoding) DeBERTa-v2 模型在第一個 Transformer 層旁邊使用了一個額外的卷積層，以更好地學習輸入標記的區域性依賴性。
在注意力層中共享位置投影矩陣和內容投影矩陣 根據之前的實驗，這可以在不影響效能的情況下節省引數。
應用桶來編碼相對位置 DeBERTa-v2 模型使用對數桶來編碼相對位置，類似於 T5。
900M 和 1.5B 模型 提供了兩種額外的模型尺寸：900M 和 1.5B，這顯著提高了下游任務的效能。

該模型由 DeBERTa 貢獻。該模型的 TF 2.0 實現由 kamalkraj 貢獻。原始程式碼可以在這裡找到。

資源

DebertaV2Config

class transformers.DebertaV2Config

< 源 >

( vocab_size = 128100 hidden_size = 1536 num_hidden_layers = 24 num_attention_heads = 24 intermediate_size = 6144 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 0 initializer_range = 0.02 layer_norm_eps = 1e-07 relative_attention = False max_relative_positions = -1 pad_token_id = 0 position_biased_input = True pos_att_type = None pooler_dropout = 0 pooler_hidden_act = 'gelu' legacy = True **kwargs )

引數

vocab_size (int, 可選, 預設為 128100) — DeBERTa-v2 模型的詞彙表大小。定義了在呼叫 DebertaV2Model 時傳入的 inputs_ids 可以表示的不同標記的數量。
hidden_size (int, 可選, 預設為 1536) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 24) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 24) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 6144) — Transformer 編碼器中“中間層”（通常稱為前饋層）的維度。
hidden_act (str 或 Callable, 可選, 預設為 "gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，支援 "gelu"、"relu"、"silu"、"gelu"、"tanh"、"gelu_fast"、"mish"、"linear"、"sigmoid" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化層中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.1) — 注意力機率的丟棄率。
max_position_embeddings (int, 可選, 預設為 512) — 該模型可能使用的最大序列長度。通常將其設定為一個較大的值以備不時之需（例如 512、1024 或 2048）。
type_vocab_size (int, 可選, 預設為 0) — 呼叫 DebertaModel 或 TFDebertaModel 時傳入的 token_type_ids 的詞彙表大小。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-7) — 層歸一化層使用的 epsilon 值。
relative_attention (bool, 可選, 預設為 True) — 是否使用相對位置編碼。
max_relative_positions (int, 可選, 預設為 -1) — 相對位置的範圍 [-max_position_embeddings, max_position_embeddings]。使用與 max_position_embeddings 相同的值。
pad_token_id (int, 可選, 預設為 0) — 用於填充 input_ids 的值。
position_biased_input (bool, 可選, 預設為 True) — 是否將絕對位置嵌入新增到內容嵌入中。
pos_att_type (list[str], 可選) — 相對位置注意力的型別，可以是 ["p2c", "c2p"] 的組合，例如 ["p2c"]、["p2c", "c2p"]、["p2c", "c2p"]。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon 值。
legacy (bool, 可選, 預設為 True) — 模型是否應使用舊版的 LegacyDebertaOnlyMLMHead，該版本在掩碼填充任務中無法正常工作。

這是一個配置類，用於儲存 DebertaV2Model 的配置。它用於根據指定的引數例項化一個 DeBERTa-v2 模型，定義模型架構。使用預設值例項化配置將產生與 DeBERTa microsoft/deberta-v2-xlarge 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import DebertaV2Config, DebertaV2Model

>>> # Initializing a DeBERTa-v2 microsoft/deberta-v2-xlarge style configuration
>>> configuration = DebertaV2Config()

>>> # Initializing a model (with random weights) from the microsoft/deberta-v2-xlarge style configuration
>>> model = DebertaV2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

DebertaV2Tokenizer

class transformers.DebertaV2Tokenizer

< 源 >

( vocab_file do_lower_case = False split_by_punct = False bos_token = '[CLS]' eos_token = '[SEP]' unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' sp_model_kwargs: typing.Optional[dict[str, typing.Any]] = None **kwargs )

引數

vocab_file (str) — SentencePiece 檔案（通常副檔名為 .spm），包含例項化分詞器所需的詞彙表。
do_lower_case (bool, 可選, 預設為 False) — 是否在分詞時將輸入轉換為小寫。
bos_token (string, 可選, 預設為 "[CLS]") — 序列開始標記，在預訓練期間使用。可用作序列分類器標記。當使用特殊標記構建序列時，此標記不會用作序列的開頭，而是使用 cls_token。
eos_token (string, 可選, 預設為 "[SEP]") — 序列結束標記。當使用特殊標記構建序列時，此標記不會用作序列的結尾，而是使用 sep_token。
unk_token (str, 可選, 預設為 "[UNK]") — 未知標記。詞表中不存在的標記無法轉換為ID，將被設定為此標記。
sep_token (str, 可選, 預設為 "[SEP]") — 分隔標記，用於從多個序列構建一個序列時，例如用於序列分類的兩個序列，或用於問答任務的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
pad_token (str, 可選, 預設為 "[PAD]") — 用於填充的標記，例如在批處理不同長度的序列時使用。
cls_token (str, 可選, 預設為 "[CLS]") — 分類器標記，在進行序列分類（對整個序列進行分類，而不是按標記分類）時使用。當使用特殊標記構建序列時，它是序列的第一個標記。
mask_token (str, 可選, 預設為 "[MASK]") — 用於掩蓋值的標記。在使用掩碼語言建模（masked language modeling）訓練此模型時使用此標記。模型將嘗試預測此標記。
sp_model_kwargs (dict, 可選) — 將傳遞給 SentencePieceProcessor.__init__() 方法。可使用 SentencePiece 的 Python 封裝來設定以下引數（以及其他引數）：
- enable_sampling: 啟用子詞正則化（subword regularization）。
- nbest_size: Unigram 的取樣引數。對 BPE-Dropout 無效。
  - nbest_size = {0,1}: 不執行取樣。
  - nbest_size > 1: 從 nbest_size 個結果中取樣。
  - nbest_size < 0: 假設 nbest_size 是無限的，並使用前向過濾-後向取樣演算法從所有假設（格）中取樣。
- alpha: Unigram 取樣的平滑引數，以及 BPE-dropout 的合併操作的丟棄機率。

構建一個 DeBERTa-v2 分詞器。基於 SentencePiece。

build_inputs_with_special_tokens

< source >

( token_ids_0 token_ids_1 = None ) → List[int]

引數

token_ids_0 (List[int]) — 將要新增特殊標記的ID列表。
token_ids_1 (List[int], 可選) — 用於序列對的可選第二個ID列表。

List[int]

帶有適當特殊標記的輸入ID列表。

透過連線和新增特殊標記，從單個序列或序列對為序列分類任務構建模型輸入。一個DeBERTa序列具有以下格式

單個序列：[CLS] X [SEP]
序列對：[CLS] A [SEP] B [SEP]

get_special_tokens_mask

< source >

( token_ids_0 token_ids_1 = None already_has_special_tokens = False ) → List[int]

引數

token_ids_0 (List[int]) — ID列表。
token_ids_1 (List[int], 可選) — 用於序列對的可選第二個ID列表。
already_has_special_tokens (bool, 可選, 預設為 False) — 標記列表是否已經為模型格式化幷包含了特殊標記。

List[int]

一個範圍為 [0, 1] 的整數列表：1 表示特殊標記，0 表示序列標記。

從未新增特殊令牌的令牌列表中檢索序列 ID。使用分詞器 prepare_for_model 或 encode_plus 方法新增特殊令牌時會呼叫此方法。

create_token_type_ids_from_sequences

< source >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 第一個分詞後的序列。
token_ids_1 (list[int], 可選) — 第二個分詞後的序列。

list[int]

標記型別 ID。

建立與傳入序列對應的標記型別 ID。什麼是標記型別 ID？

如果模型有特殊的構建方式，應在子類中重寫此方法。

save_vocabulary

< source >

( save_directory: str filename_prefix: typing.Optional[str] = None )

DebertaV2TokenizerFast

class transformers.DebertaV2TokenizerFast

< source >

( vocab_file = None tokenizer_file = None do_lower_case = False split_by_punct = False bos_token = '[CLS]' eos_token = '[SEP]' unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' **kwargs )

引數

vocab_file (str) — SentencePiece 檔案（通常副檔名為 .spm），其中包含例項化分詞器所需的詞表。
do_lower_case (bool, 可選, 預設為 False) — 是否在分詞時將輸入轉換為小寫。
bos_token (string, 可選, 預設為 "[CLS]") — 序列開始標記，在預訓練期間使用。可用作序列分類器標記。當使用特殊標記構建序列時，此標記不會用作序列的開頭，而是使用 cls_token。
eos_token (string, 可選, 預設為 "[SEP]") — 序列結束標記。當使用特殊標記構建序列時，此標記不會用作序列的結尾，而是使用 sep_token。
unk_token (str, 可選, 預設為 "[UNK]") — 未知標記。詞表中不存在的標記無法轉換為ID，將被設定為此標記。
sep_token (str, 可選, 預設為 "[SEP]") — 分隔標記，用於從多個序列構建一個序列時，例如用於序列分類的兩個序列，或用於問答任務的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。
pad_token (str, 可選, 預設為 "[PAD]") — 用於填充的標記，例如在批處理不同長度的序列時使用。
cls_token (str, 可選, 預設為 "[CLS]") — 分類器標記，在進行序列分類（對整個序列進行分類，而不是按標記分類）時使用。當使用特殊標記構建序列時，它是序列的第一個標記。
mask_token (str, 可選, 預設為 "[MASK]") — 用於掩蓋值的標記。在使用掩碼語言建模（masked language modeling）訓練此模型時使用此標記。模型將嘗試預測此標記。
sp_model_kwargs (dict, 可選) — 將傳遞給 SentencePieceProcessor.__init__() 方法。可使用 SentencePiece 的 Python 封裝來設定以下引數（以及其他引數）：
- enable_sampling: 啟用子詞正則化（subword regularization）。
- nbest_size: Unigram 的取樣引數。對 BPE-Dropout 無效。
  - nbest_size = {0,1}: 不執行取樣。
  - nbest_size > 1: 從 nbest_size 個結果中取樣。
  - nbest_size < 0: 假設 nbest_size 是無限的，並使用前向過濾-後向取樣演算法從所有假設（格）中取樣。
- alpha: Unigram 取樣的平滑引數，以及 BPE-dropout 的合併操作的丟棄機率。

構建一個 DeBERTa-v2 快速分詞器。基於 SentencePiece。

build_inputs_with_special_tokens

< source >

( token_ids_0 token_ids_1 = None ) → List[int]

引數

token_ids_0 (List[int]) — 將要新增特殊標記的ID列表。
token_ids_1 (List[int], 可選) — 用於序列對的可選第二個ID列表。

List[int]

帶有適當特殊標記的輸入ID列表。

透過連線和新增特殊標記，從單個序列或序列對為序列分類任務構建模型輸入。一個DeBERTa序列具有以下格式

單個序列：[CLS] X [SEP]
序列對：[CLS] A [SEP] B [SEP]

create_token_type_ids_from_sequences

< source >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 第一個分詞後的序列。
token_ids_1 (list[int], 可選) — 第二個分詞後的序列。

list[int]

標記型別 ID。

建立與傳入序列對應的標記型別 ID。什麼是標記型別 ID？

如果模型有特殊的構建方式，應在子類中重寫此方法。

Pytorch

隱藏 Pytorch 內容

DebertaV2Model

class transformers.DebertaV2Model

< source >

( config )

引數

config (DebertaV2Model) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請查閱 from_pretrained() 方法來載入模型權重。

基礎的 Deberta V2 模型，輸出沒有任何特定頭部的原始隱藏狀態。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch Module 一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< source >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutput or tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列標記的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被掩碼，
- 0 表示標記被掩碼。
什麼是注意力掩碼？
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length), 可選) — 段標記索引，用於指示輸入的第一部分和第二部分。索引在 [0, 1] 中選擇：
- 0 對應於 *句子 A* 的標記，
- 1 對應於 *句子 B* 的標記。
什麼是標記型別 ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。取值範圍為 [0, config.n_positions - 1]。

什麼是 position ID？
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，你可以不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為相關聯的向量，這會非常有用。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.BaseModelOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（DebertaV2Config）和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(torch.FloatTensor)，可選，在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，+ 之後是每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，在傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

DebertaV2Model 的 forward 方法覆蓋了 __call__ 特殊方法。

儘管前向傳播的邏輯需要在此函式內定義，但之後應該呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默地忽略它們。

DebertaV2PreTrainedModel

class transformers.DebertaV2PreTrainedModel

< 來源 >

( config: PretrainedConfig *inputs **kwargs )

引數

config (PretrainedConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch Module 一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

_forward_unimplemented

< 來源 >

( *input: typing.Any )

定義每次呼叫時執行的計算。

應由所有子類覆蓋。

儘管前向傳播的配方需要在該函式中定義，但之後應該呼叫 Module 例項而不是它，因為前者負責執行註冊的鉤子，而後者則默默地忽略它們。

DebertaV2ForMaskedLM

class transformers.DebertaV2ForMaskedLM

< 來源 >

( config )

引數

config (DebertaV2ForMaskedLM) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Deberta V2 模型，其頂部帶有一個 語言建模 頭。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch Module 一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列詞元的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被掩碼，
- 0 表示詞元已被掩碼。
什麼是 attention mask？
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於指示輸入的第一和第二部分的段落詞元索引。索引在 [0, 1] 中選擇：
- 0 對應於 *A 句* 詞元，
- 1 對應於 *B 句* 詞元。
什麼是 token type ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。取值範圍為 [0, config.n_positions - 1]。

什麼是 position ID？
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，你可以不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為相關聯的向量，這會非常有用。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [-100, 0, ..., config.vocab_size] 範圍內（參見 input_ids 的文件字串）。索引設定為 -100 的詞元將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 範圍內的詞元計算。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.MaskedLMOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（DebertaV2Config）和輸入的不同元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 掩碼語言建模 (MLM) 損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
hidden_states (tuple(torch.FloatTensor)，可選，在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，+ 之後是每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，在傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

DebertaV2ForMaskedLM 的 forward 方法覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, DebertaV2ForMaskedLM
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-v2-xlarge")
>>> model = DebertaV2ForMaskedLM.from_pretrained("microsoft/deberta-v2-xlarge")

>>> inputs = tokenizer("The capital of France is <mask>.", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # retrieve index of <mask>
>>> mask_token_index = (inputs.input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0]

>>> predicted_token_id = logits[0, mask_token_index].argmax(axis=-1)
>>> tokenizer.decode(predicted_token_id)
...

>>> labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]
>>> # mask labels of non-<mask> tokens
>>> labels = torch.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)

>>> outputs = model(**inputs, labels=labels)
>>> round(outputs.loss.item(), 2)
...

DebertaV2ForSequenceClassification

class transformers.DebertaV2ForSequenceClassification

< 來源 >

( config )

引數

config (DebertaV2ForSequenceClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

DeBERTa 模型，其頂部帶有一個序列分類/迴歸頭（一個在池化輸出之上的線性層），例如用於 GLUE 任務。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch Module 一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列詞元的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被掩碼，
- 0 表示詞元已被掩碼。
什麼是 attention mask？
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於指示輸入的第一和第二部分的段落詞元索引。索引在 [0, 1] 中選擇：
- 0 對應於 *A 句* 詞元，
- 1 對應於 *B 句* 詞元。
什麼是 token type ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。取值範圍為 [0, config.n_positions - 1]。

什麼是 position ID？
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，你可以不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為相關聯的向量，這會非常有用。
labels (torch.LongTensor，形狀為 (batch_size,)，可選) — 用於計算序列分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（DebertaV2Config）和輸入的不同元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可選，在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，+ 之後是每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，在傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

DebertaV2ForSequenceClassification 的 forward 方法覆蓋了 __call__ 特殊方法。

單標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, DebertaV2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-v2-xlarge")
>>> model = DebertaV2ForSequenceClassification.from_pretrained("microsoft/deberta-v2-xlarge")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = DebertaV2ForSequenceClassification.from_pretrained("microsoft/deberta-v2-xlarge", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, DebertaV2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-v2-xlarge")
>>> model = DebertaV2ForSequenceClassification.from_pretrained("microsoft/deberta-v2-xlarge", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = DebertaV2ForSequenceClassification.from_pretrained(
...     "microsoft/deberta-v2-xlarge", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

DebertaV2ForTokenClassification

class transformers.DebertaV2ForTokenClassification

< 來源 >

( config )

引數

config (DebertaV2ForTokenClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Deberta V2 模型，其頂部帶有一個詞元分類頭（一個在隱藏狀態輸出之上的線性層），例如用於命名實體識別 (NER) 任務。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch Module 一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列詞元的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示詞元未被掩碼，
- 0 表示詞元已被掩碼。
什麼是 attention mask？
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於指示輸入的第一和第二部分的段落詞元索引。索引在 [0, 1] 中選擇：
- 0 對應於 *A 句* 詞元，
- 1 對應於 *B 句* 詞元。
什麼是 token type ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列詞元的位置索引。取值範圍為 [0, config.n_positions - 1]。

什麼是 position ID？
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，你可以不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為相關聯的向量，這會非常有用。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算詞元分類損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.TokenClassifierOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或 config.return_dict=False），包含根據配置（DebertaV2Config）和輸入的不同元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失。
logits (形狀為 (batch_size, sequence_length, config.num_labels) 的 torch.FloatTensor) — 分類分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可選，在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，+ 之後是每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，在傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

DebertaV2ForTokenClassification 的 forward 方法覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, DebertaV2ForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-v2-xlarge")
>>> model = DebertaV2ForTokenClassification.from_pretrained("microsoft/deberta-v2-xlarge")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
...

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

DebertaV2ForQuestionAnswering

class transformers.DebertaV2ForQuestionAnswering

< 來源 >

( config )

引數

config (DebertaV2ForQuestionAnswering) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

Deberta V2 模型，其頂部帶有一個用於抽取式問答任務（如 SQuAD）的片段分類頭（一個在隱藏狀態輸出之上的線性層，用於計算 `span start logits` 和 `span end logits`）。

該模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch Module 一樣使用它，並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None token_type_ids: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None start_positions: typing.Optional[torch.Tensor] = None end_positions: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示標記未被掩碼，
- 0 表示標記已被掩碼。
什麼是注意力掩碼？
token_type_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於指示輸入的第一部分和第二部分的段標記索引。索引在 [0, 1] 中選擇：
- 0 對應於 句子 A 的標記，
- 1 對應於 句子 B 的標記。
什麼是標記型別 ID？
position_ids (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 位置嵌入中每個輸入序列標記的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
inputs_embeds (torch.Tensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，你可以選擇直接傳遞嵌入式表示，而不是傳遞 input_ids。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量，這會很有用。
start_positions (torch.Tensor，形狀為 (batch_size,)，可選) — 用於計算標記分類損失的標記範圍起點的標籤位置（索引）。位置被限制在序列長度 (sequence_length) 內。計算損失時不考慮序列之外的位置。
end_positions (torch.Tensor，形狀為 (batch_size,)，可選) — 用於計算標記分類損失的標記範圍終點的標籤位置（索引）。位置被限制在序列長度 (sequence_length) 內。計算損失時不考慮序列之外的位置。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool，可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一個 torch.FloatTensor 的元組（如果傳遞 return_dict=False 或 config.return_dict=False），包含各種元素，具體取決於配置 (DebertaV2Config) 和輸入。

loss (torch.FloatTensor of shape (1,), 可選, 當提供 labels 時返回) — 總範圍提取損失是起始位置和結束位置的交叉熵之和。
start_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 範圍起始分數（SoftMax 之前）。
end_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 範圍結束分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可選，在傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，+ 之後是每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor)，可選，在傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

DebertaV2ForQuestionAnswering 的 forward 方法會覆蓋 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, DebertaV2ForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-v2-xlarge")
>>> model = DebertaV2ForQuestionAnswering.from_pretrained("microsoft/deberta-v2-xlarge")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> tokenizer.decode(predict_answer_tokens, skip_special_tokens=True)
...

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
>>> round(loss.item(), 2)
...

Transformers

DeBERTa-v2

概述

資源

DebertaV2Config

class transformers.DebertaV2Config

DebertaV2Tokenizer

class transformers.DebertaV2Tokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

DebertaV2TokenizerFast

class transformers.DebertaV2TokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

DebertaV2Model

class transformers.DebertaV2Model

forward

DebertaV2PreTrainedModel

class transformers.DebertaV2PreTrainedModel

_forward_unimplemented

DebertaV2ForMaskedLM

class transformers.DebertaV2ForMaskedLM

forward

DebertaV2ForSequenceClassification

class transformers.DebertaV2ForSequenceClassification

forward

DebertaV2ForTokenClassification

class transformers.DebertaV2ForTokenClassification

forward

DebertaV2ForQuestionAnswering

class transformers.DebertaV2ForQuestionAnswering

forward

DebertaV2ForMultipleChoice

class transformers.DebertaV2ForMultipleChoice

forward

TFDebertaV2Model

class transformers.TFDebertaV2Model

呼叫

TFDebertaV2PreTrainedModel

class transformers.TFDebertaV2PreTrainedModel

呼叫

TFDebertaV2ForMaskedLM

class transformers.TFDebertaV2ForMaskedLM

呼叫

TFDebertaV2ForSequenceClassification

class transformers.TFDebertaV2ForSequenceClassification

呼叫

TFDebertaV2ForTokenClassification

class transformers.TFDebertaV2ForTokenClassification

呼叫

TFDebertaV2ForQuestionAnswering

class transformers.TFDebertaV2ForQuestionAnswering

呼叫

TFDebertaV2ForMultipleChoice

class transformers.TFDebertaV2ForMultipleChoice

呼叫