Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

FNet

概述

FNet 模型由 James Lee-Thorp、Joshua Ainslie、Ilya Eckstein 和 Santiago Ontanon 在論文 FNet: Mixing Tokens with Fourier Transforms 中提出。該模型用傅立葉變換替換了 BERT 模型中的自注意力層，並且只返回變換的實部。由於引數更少且記憶體效率更高，該模型比 BERT 模型快得多。在 GLUE 基準測試中，該模型達到了 BERT 對應模型約 92-97% 的準確率，並且訓練速度遠快於 BERT 模型。論文摘要如下：

我們表明，透過用簡單的線性變換來“混合”輸入標記（token），可以在有限的準確率損失下加速 Transformer 編碼器架構。這些線性混合器，與前饋層中的標準非線性函式一起，證明了在多個文字分類任務中能夠有效地建模語義關係。最令人驚訝的是，我們發現用標準的、無引數的傅立葉變換替換 Transformer 編碼器中的自注意力子層，在 GLUE 基準測試中能達到 BERT 對應模型 92-97% 的準確率，但在標準 512 輸入長度下，其在 GPU 上的訓練速度快 80%，在 TPU 上的訓練速度快 70%。在更長的輸入長度下，我們的 FNet 模型速度明顯更快：與 Long Range Arena 基準測試中的“高效”Transformer 相比，FNet 的準確率與最準確的模型相當，同時在所有序列長度的 GPU 上（以及在 TPU 上的相對較短長度上）都超過了最快的模型。最後，FNet 的記憶體佔用小，在較小的模型尺寸下尤其高效；在固定的速度和準確率預算下，小型 FNet 模型優於其 Transformer 對應模型。

此模型由 gchhablani 貢獻。原始程式碼可以在這裡找到。

使用技巧

該模型是基於傅立葉變換的，因此在訓練時沒有使用注意力掩碼（attention mask）。模型訓練時使用的最大序列長度為 512，其中包括填充標記（pad tokens）。因此，強烈建議在微調和推理時使用相同的最大序列長度。

Transformers

FNet

概述

使用技巧

資源

FNetConfig

class transformers.FNetConfig

FNetTokenizer

class transformers.FNetTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

FNetTokenizerFast

class transformers.FNetTokenizerFast

build_inputs_with_special_tokens

FNetModel

class transformers.FNetModel

forward

FNetForPreTraining

class transformers.FNetForPreTraining

forward

FNetForMaskedLM

class transformers.FNetForMaskedLM

forward

FNetForNextSentencePrediction

class transformers.FNetForNextSentencePrediction

forward

FNetForSequenceClassification

class transformers.FNetForSequenceClassification

forward

FNetForMultipleChoice

class transformers.FNetForMultipleChoice

forward

FNetForTokenClassification

class transformers.FNetForTokenClassification

forward

FNetForQuestionAnswering

class transformers.FNetForQuestionAnswering

forward