Transformers 文件

ConvBERT

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

ConvBERT

概述

ConvBERT 模型由 Zihang Jiang、Weihao Yu、Daquan Zhou、Yunpeng Chen、Jiashi Feng 和 Shuicheng Yan 在論文 ConvBERT: Improving BERT with Span-based Dynamic Convolution 中提出。

論文摘要如下：

像 BERT 及其變體這樣的預訓練語言模型最近在各種自然語言理解任務中取得了令人印象深刻的效能。然而，BERT 嚴重依賴全域性自注意力模組，因此記憶體佔用和計算成本都很高。雖然它的所有注意力頭都在整個輸入序列上查詢以從全域性視角生成注意力圖，但我們觀察到一些頭只需要學習區域性依賴關係，這意味著存在計算冗餘。因此，我們提出了一種新穎的基於區間的動態卷積來替換這些自注意力頭，以直接建模區域性依賴關係。新穎的卷積頭與其餘的自注意力頭一起，形成了一個新的混合注意力模組，在全域性和區域性上下文學習上都更有效。我們將 BERT 配備了這種混合注意力設計，並構建了一個 ConvBERT 模型。實驗表明，ConvBERT 在各種下游任務中顯著優於 BERT 及其變體，並且訓練成本更低，模型引數更少。值得注意的是，ConvBERTbase 模型的 GLUE 得分達到 86.4，比 ELECTRAbase 高 0.7，而訓練成本不到 1/4。程式碼和預訓練模型將會發布。

此模型由 abhishek 貢獻。原始實現可以在這裡找到：https://github.com/yitu-opensource/ConvBert

使用技巧

ConvBERT 的訓練技巧與 BERT 相似。有關使用技巧，請參閱 BERT 文件。

資源

ConvBertConfig

class transformers.ConvBertConfig

< source >

( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 embedding_size = 768 head_ratio = 2 conv_kernel_size = 9 num_groups = 1 classifier_dropout = None **kwargs )

引數

vocab_size (int, 可選, 預設為 30522) — ConvBERT 模型的詞彙表大小。定義了在呼叫 ConvBertModel 或 TFConvBertModel 時傳遞的 `inputs_ids` 可以表示的不同標記的數量。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.1) — 嵌入、編碼器和池化層中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.1) — 注意力機率的丟棄率。
max_position_embeddings (int, 可選, 預設為 512) — 此模型可能使用的最大序列長度。通常將其設定為較大的值以備不時之需（例如，512、1024 或 2048）。
type_vocab_size (int, 可選, 預設為 2) — 在呼叫 ConvBertModel 或 TFConvBertModel 時傳遞的 `token_type_ids` 的詞彙表大小。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon 值。
head_ratio (int, 可選, 預設為 2) — 用於減少注意力頭數量的比例 gamma。
num_groups (int, 可選, 預設為 1) — ConvBert 模型中分組線性層的組數。
conv_kernel_size (int, 可選, 預設為 9) — 卷積核的大小。
classifier_dropout (float, 可選) — 分類頭的丟棄率。

這是用於儲存 ConvBertModel 配置的配置類。它用於根據指定的引數例項化一個 ConvBERT 模型，定義模型架構。使用預設值例項化配置將產生與 ConvBERT YituTech/conv-bert-base 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import ConvBertConfig, ConvBertModel

>>> # Initializing a ConvBERT convbert-base-uncased style configuration
>>> configuration = ConvBertConfig()

>>> # Initializing a model (with random weights) from the convbert-base-uncased style configuration
>>> model = ConvBertModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

ConvBertTokenizer

class transformers.ConvBertTokenizer

< source >

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None clean_up_tokenization_spaces = True **kwargs )

引數

vocab_file (str) — 包含詞彙表的檔案。
do_lower_case (bool, 可選, 預設為 True) — 是否在分詞時將輸入轉換為小寫。
do_basic_tokenize (bool, 可選, 預設為 True) — 是否在 WordPiece 之前進行基本分詞。
never_split (Iterable, 可選) — 在分詞過程中永遠不會被分割的詞元集合。僅在 do_basic_tokenize=True 時有效。
unk_token (str, 可選, 預設為 "[UNK]") — 未知詞元。不在詞彙表中的詞元無法轉換為 ID，將被設定為此詞元。
sep_token (str, 可選, 預設為 "[SEP]") — 分隔符詞元，用於從多個序列構建一個序列時使用，例如用於序列分類的兩個序列，或用於問答的文字和問題。它也用作帶有特殊詞元的序列的最後一個詞元。
pad_token (str, 可選, 預設為 "[PAD]") — 用於填充的詞元，例如在批處理不同長度的序列時使用。
cls_token (str, 可選, 預設為 "[CLS]") — 分類器詞元，用於進行序列分類（對整個序列進行分類，而不是按詞元分類）。當使用特殊詞元構建序列時，它是序列的第一個詞元。
mask_token (str, 可選, 預設為 "[MASK]") — 用於掩蓋值的詞元。這是在使用掩碼語言建模訓練此模型時使用的詞元。這是模型將嘗試預測的詞元。
tokenize_chinese_chars (bool, 可選, 預設為 True) — 是否對中文字元進行分詞。

對於日語，這可能應該停用（參見這個 issue）。
strip_accents (bool, 可選) — 是否去除所有重音符號。如果未指定此選項，則將由 lowercase 的值決定（與原始 ConvBERT 中一樣）。
clean_up_tokenization_spaces (bool, 可選, 預設為 True) — 是否在解碼後清理空格，清理包括移除潛在的額外空格等瑕疵。

構建一個 ConvBERT 分詞器。基於 WordPiece。

該分詞器繼承自 PreTrainedTokenizer，其中包含了大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

Transformers

ConvBERT

概述

使用技巧

資源

ConvBertConfig

class transformers.ConvBertConfig

ConvBertTokenizer

class transformers.ConvBertTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

ConvBertTokenizerFast

class transformers.ConvBertTokenizerFast

build_inputs_with_special_tokens

ConvBertModel

class transformers.ConvBertModel

forward

ConvBertForMaskedLM

class transformers.ConvBertForMaskedLM

forward

ConvBertForSequenceClassification

class transformers.ConvBertForSequenceClassification

forward

ConvBertForMultipleChoice

class transformers.ConvBertForMultipleChoice

forward

ConvBertForTokenClassification

class transformers.ConvBertForTokenClassification

forward

ConvBertForQuestionAnswering

class transformers.ConvBertForQuestionAnswering

forward

TFConvBertModel

class transformers.TFConvBertModel

呼叫

TFConvBertForMaskedLM

class transformers.TFConvBertForMaskedLM

呼叫

TFConvBertForSequenceClassification

class transformers.TFConvBertForSequenceClassification

呼叫

TFConvBertForMultipleChoice

class transformers.TFConvBertForMultipleChoice

呼叫

TFConvBertForTokenClassification

class transformers.TFConvBertForTokenClassification

呼叫

TFConvBertForQuestionAnswering

class transformers.TFConvBertForQuestionAnswering

呼叫