Transformers 文件

mT5

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

mT5

概述

mT5 模型由 Linting Xue、Noah Constant、Adam Roberts、Mihir Kale、Rami Al-Rfou、Aditya Siddhant、Aditya Barua、Colin Raffel 在論文 mT5：一個大規模多語言預訓練文字到文字轉換器中提出。

論文摘要如下：

最近，“文字到文字遷移轉換器”（T5）利用統一的文字到文字格式和規模，在各種英語自然語言處理任務上取得了最先進的結果。在本文中，我們介紹了 mT5，它是 T5 的一個多語言變體，它在一個基於 Common Crawl 的新資料集上進行了預訓練，該資料集涵蓋了 101 種語言。我們詳細介紹了 mT5 的設計和改進的訓練方法，並展示了其在許多多語言基準測試中的最先進效能。我們還描述了一種簡單的技術，用於在零樣本設定下防止“意外翻譯”，即生成模型選擇（部分）將其預測翻譯成錯誤的語言。本工作中使用的所有程式碼和模型檢查點都已公開可用。

注意：mT5 僅在 mC4 上進行了預訓練，不包含任何有監督的訓練。因此，與原始的 T5 模型不同，該模型在使用於下游任務之前必須進行微調。由於 mT5 是無監督預訓練的，因此在單任務微調期間使用任務字首並沒有實際的好處。如果您正在進行多工微調，則應使用字首。

Google 釋出了以下變體：

該模型由 patrickvonplaten 貢獻。原始程式碼可以在這裡找到。

資源

MT5Config

class transformers.MT5Config

< 源 >

( vocab_size = 250112 d_model = 512 d_kv = 64 d_ff = 1024 num_layers = 8 num_decoder_layers = None num_heads = 6 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 dropout_rate = 0.1 layer_norm_epsilon = 1e-06 initializer_factor = 1.0 feed_forward_proj = 'gated-gelu' is_encoder_decoder = True use_cache = True tokenizer_class = 'T5Tokenizer' tie_word_embeddings = False pad_token_id = 0 eos_token_id = 1 decoder_start_token_id = 0 classifier_dropout = 0.0 **kwargs )

引數

vocab_size (int, 可選, 預設為 250112) — T5 模型的詞彙表大小。定義了在呼叫 T5Model 或 TFT5Model 時，可以透過 inputs_ids 表示的不同 token 的數量。
d_model (int, 可選, 預設為 512) — 編碼器層和池化層的大小。
d_kv (int, 可選, 預設為 64) — 每個注意力頭中鍵、查詢、值投影的大小。在傳統情況下，通常期望 `d_kv` 等於 `d_model // num_heads`。但在 mt5-small 的架構中，`d_kv` 不等於 `d_model // num_heads`。投影層的 `inner_dim` 將定義為 `num_heads * d_kv`。
d_ff (int, 可選, 預設為 1024) — 每個 `T5Block` 中中間前饋層的大小。
num_layers (int, 可選, 預設為 8) — Transformer 編碼器中的隱藏層數量。
num_decoder_layers (int, 可選) — Transformer 解碼器中的隱藏層數量。如果未設定，將使用與 `num_layers` 相同的值。
num_heads (int, 可選, 預設為 6) — Transformer 編碼器中每個注意力層的注意力頭數量。
relative_attention_num_buckets (int, 可選, 預設為 32) — 用於每個注意力層的桶（bucket）的數量。
relative_attention_max_distance (int, 可選, 預設為 128) — 用於桶分離的較長序列的最大距離。
dropout_rate (float, 可選, 預設為 0.1) — 所有 dropout 層的比率。
classifier_dropout (float, 可選, 預設為 0.0) — 分類器的 dropout 比率。
layer_norm_eps (float, 可選, 預設為 1e-6) — 層歸一化層使用的 epsilon 值。
initializer_factor (float, 可選, 預設為 1) — 用於初始化所有權重矩陣的因子（應保持為 1，內部用於初始化測試）。
feed_forward_proj (string, 可選, 預設為 "gated-gelu") — 要使用的前饋層型別。應為 "relu" 或 "gated-gelu" 之一。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。

這是一個用於儲存 MT5Model 或 TFMT5Model 配置的配置類。它用於根據指定的引數例項化一個 mT5 模型，定義模型架構。使用預設值例項化一個配置將產生與 mT5 google/mt5-small 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

MT5Tokenizer

class transformers.MT5Tokenizer

< 源 >

( vocab_file eos_token = '</s>' unk_token = '<unk>' pad_token = '<pad>' extra_ids = 100 additional_special_tokens = None sp_model_kwargs: typing.Optional[dict[str, typing.Any]] = None legacy = None add_prefix_space = True **kwargs )

檢視 T5Tokenizer 瞭解所有詳細資訊。

MT5TokenizerFast

class transformers.MT5TokenizerFast

< 源 >

( vocab_file = None tokenizer_file = None eos_token = '</s>' unk_token = '<unk>' pad_token = '<pad>' extra_ids = 100 additional_special_tokens = None add_prefix_space = None **kwargs )

有關所有詳細資訊，請參閱 T5TokenizerFast。

Pytorch

隱藏 Pytorch 內容

Transformers

mT5

概述

資源

MT5Config

class transformers.MT5Config

MT5Tokenizer

class transformers.MT5Tokenizer

MT5TokenizerFast

class transformers.MT5TokenizerFast

MT5Model

class transformers.MT5Model

deparallelize

forward

parallelize

MT5ForConditionalGeneration

class transformers.MT5ForConditionalGeneration

deparallelize

forward

parallelize

MT5EncoderModel

class transformers.MT5EncoderModel

deparallelize

forward

parallelize

MT5ForSequenceClassification

class transformers.MT5ForSequenceClassification

forward

MT5ForTokenClassification

class transformers.MT5ForTokenClassification

forward

MT5ForQuestionAnswering

class transformers.MT5ForQuestionAnswering

forward

TFMT5Model

class transformers.TFMT5Model

TFMT5ForConditionalGeneration

class transformers.TFMT5ForConditionalGeneration

TFMT5EncoderModel

class transformers.TFMT5EncoderModel

FlaxMT5Model

class transformers.FlaxMT5Model

FlaxMT5ForConditionalGeneration

class transformers.FlaxMT5ForConditionalGeneration

FlaxMT5EncoderModel

class transformers.FlaxMT5EncoderModel