Transformers 文件

SqueezeBERT

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

SqueezeBERT

概述

SqueezeBERT模型由Forrest N. Iandola、Albert E. Shaw、Ravi Krishna和Kurt W. Keutzer在論文 SqueezeBERT: What can computer vision teach NLP about efficient neural networks? 中提出。它是一個類似於BERT模型的雙向Transformer。BERT架構和SqueezeBERT架構之間的關鍵區別在於，SqueezeBERT使用分組卷積來替代Q、K、V和FFN層中的全連線層。

論文摘要如下：

人類每天閱讀和書寫數千億條資訊。此外，由於大型資料集、大型計算系統和更好的神經網路模型的出現，自然語言處理（NLP）技術在理解、校對和組織這些資訊方面取得了重大進展。因此，在眾多應用中部署NLP，幫助網路使用者、社交網路和企業，存在著巨大的機遇。我們特別將智慧手機和其他移動裝置視為大規模部署NLP模型的關鍵平臺。然而，如今高精度的NLP神經網路模型（如BERT和RoBERTa）的計算成本極高，BERT-base在Pixel 3智慧手機上對一段文字進行分類需要1.7秒。在這項工作中，我們觀察到，分組卷積等方法已為計算機視覺網路帶來了顯著的速度提升，但許多這些技術尚未被NLP神經網路設計者採用。我們演示瞭如何用分組卷積替換自注意力層中的幾個操作，並在一種名為SqueezeBERT的新型網路架構中使用了這項技術。SqueezeBERT在Pixel 3上的執行速度比BERT-base快4.3倍，同時在GLUE測試集上取得了有競爭力的準確率。SqueezeBERT的程式碼將會發布。

此模型由 forresti 貢獻。

使用技巧

SqueezeBERT是一個帶有絕對位置嵌入的模型，因此通常建議在輸入的右側而不是左側進行填充。
SqueezeBERT類似於BERT，因此依賴於掩碼語言建模（MLM）目標。因此，它在預測掩碼詞元和一般的自然語言理解（NLU）任務上效率很高，但對於文字生成任務並非最佳選擇。使用因果語言建模（CLM）目標訓練的模型在這方面表現更好。
為了在序列分類任務上進行微調時獲得最佳結果，建議從 squeezebert/squeezebert-mnli-headless 檢查點開始。

資源

SqueezeBertConfig

class transformers.SqueezeBertConfig

< 來源 >

( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 embedding_size = 768 q_groups = 4 k_groups = 4 v_groups = 4 post_attention_groups = 1 intermediate_groups = 4 output_groups = 4 **kwargs )

引數

vocab_size (int，可選，預設為 30522) — SqueezeBERT模型的詞彙表大小。定義了在呼叫SqueezeBertModel時傳入的inputs_ids可以表示的不同詞元的數量。
hidden_size (int，可選，預設為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int，可選，預設為 12) — Transformer編碼器中的隱藏層數量。
num_attention_heads (int，可選，預設為 12) — Transformer編碼器中每個注意力層的注意力頭數量。
intermediate_size (int，可選，預設為 3072) — Transformer編碼器中“中間層”（通常稱為前饋層）的維度。
hidden_act (str 或 Callable，可選，預設為 "gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"silu" 和 "gelu_new"。
hidden_dropout_prob (float，可選，預設為 0.1) — 嵌入層、編碼器和池化層中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float，可選，預設為 0.1) — 注意力機率的丟棄率。
max_position_embeddings (int，可選，預設為 512) — 此模型可能使用的最大序列長度。通常將其設定為一個較大的值以防萬一（例如，512、1024 或 2048）。
type_vocab_size (int，可選，預設為 2) — 在呼叫BertModel或TFBertModel時傳入的token_type_ids的詞彙表大小。
initializer_range (float，可選，預設為 0.02) — 用於初始化所有權重矩陣的truncated_normal_initializer的標準差。
layer_norm_eps (float，可選，預設為 1e-12) —
pad_token_id (int，可選，預設為 0) — 詞嵌入中用作填充的詞元的 ID。
embedding_size (int，可選，預設為 768) — 詞嵌入向量的維度。
q_groups (int，可選，預設為 4) — Q 層中的分組數。
k_groups (int，可選，預設為 4) — K 層中的分組數。
v_groups (int，可選，預設為 4) — V 層中的分組數。
post_attention_groups (int，可選，預設為 1) — 第一個前饋網路層中的分組數。
intermediate_groups (int，可選，預設為 4) — 第二個前饋網路層中的分組數。
output_groups (int，可選，預設為 4) — 第三個前饋網路層中的分組數。

這是一個配置類，用於儲存SqueezeBertModel的配置。它用於根據指定的引數例項化一個SqueezeBERT模型，定義模型架構。使用預設值例項化配置將產生與SqueezeBERT squeezebert/squeezebert-uncased 架構類似的配置。

配置物件繼承自PretrainedConfig，可用於控制模型輸出。請閱讀PretrainedConfig的文件以獲取更多資訊。

示例

>>> from transformers import SqueezeBertConfig, SqueezeBertModel

>>> # Initializing a SqueezeBERT configuration
>>> configuration = SqueezeBertConfig()

>>> # Initializing a model (with random weights) from the configuration above
>>> model = SqueezeBertModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

SqueezeBertTokenizer

class transformers.SqueezeBertTokenizer

< 來源 >

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None clean_up_tokenization_spaces = True **kwargs )

引數

vocab_file (str) — 包含詞彙表的檔案。
do_lower_case (bool, 可選, 預設為 True) — 是否在分詞時將輸入轉換為小寫。
do_basic_tokenize (bool, 可選, 預設為 True) — 是否在 WordPiece 之前執行基本分詞。
never_split (Iterable, 可選) — 在分詞過程中永遠不會被分割的詞元集合。僅在 do_basic_tokenize=True 時有效。
unk_token (str, 可選, 預設為 "[UNK]") — 未知詞元。不在詞彙表中的詞元無法轉換為 ID，將被設定為此詞元。
sep_token (str, 可選, 預設為 "[SEP]") — 分隔符詞元，用於從多個序列構建一個序列，例如用於序列分類的兩個序列，或用於問答任務的文字和問題。它也用作使用特殊詞元構建的序列的最後一個詞元。
pad_token (str, 可選, 預設為 "[PAD]") — 用於填充的詞元，例如當批處理不同長度的序列時使用。
cls_token (str, 可選, 預設為 "[CLS]") — 分類器詞元，用於序列分類任務（對整個序列進行分類，而不是逐詞元分類）。當使用特殊詞元構建序列時，它是序列的第一個詞元。
mask_token (str, 可選, 預設為 "[MASK]") — 用於掩碼值的詞元。這是在使用掩碼語言建模訓練此模型時使用的詞元。這是模型將嘗試預測的詞元。
tokenize_chinese_chars (bool, 可選, 預設為 True) — 是否對中文字元進行分詞。

對於日語，這可能應該被停用（請參閱此問題）。
strip_accents (bool, 可選) — 是否去除所有重音符號。如果未指定此選項，則將由 lowercase 的值決定（與原始 SqueezeBERT 中一樣）。
clean_up_tokenization_spaces (bool, 可選, 預設為 True) — 是否在解碼後清理空格，清理包括移除可能的多餘空格等偽影。

構建一個 SqueezeBERT 分詞器。基於 WordPiece。

此分詞器繼承自 PreTrainedTokenizer，其中包含大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

Transformers

SqueezeBERT

概述

使用技巧

資源

SqueezeBertConfig

class transformers.SqueezeBertConfig

SqueezeBertTokenizer

class transformers.SqueezeBertTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

SqueezeBertTokenizerFast

class transformers.SqueezeBertTokenizerFast

build_inputs_with_special_tokens

SqueezeBertModel

class transformers.SqueezeBertModel

forward

SqueezeBertForMaskedLM

class transformers.SqueezeBertForMaskedLM

forward

SqueezeBertForSequenceClassification

class transformers.SqueezeBertForSequenceClassification

forward

SqueezeBertForMultipleChoice

class transformers.SqueezeBertForMultipleChoice

forward

SqueezeBertForTokenClassification

class transformers.SqueezeBertForTokenClassification

forward

SqueezeBertForQuestionAnswering

class transformers.SqueezeBertForQuestionAnswering

forward