Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

MADLAD-400

概述

MADLAD-400 模型釋出於論文 [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](MADLAD-400: A Multilingual And Document-Level Large Audited Dataset)。

論文摘要如下：

我們介紹了 MADLAD-400，一個基於 CommonCrawl 的、經過人工稽核的、通用領域的 3T 詞元單語資料集，涵蓋了 419 種語言。我們討論了自我稽核 MADLAD-400 時發現的侷限性，以及資料稽核在資料集建立過程中的作用。然後，我們使用公開資料訓練併發布了一個包含 10.7B 引數的多語言機器翻譯模型，該模型使用了 2500 億個詞元，覆蓋了超過 450 種語言，並發現其與更大規模的模型相比具有競爭力，我們還報告了其在不同領域的結果。此外，我們訓練了一個 8B 引數的語言模型，並評估了其在少樣本翻譯上的結果。我們將這些基線模型 1 提供給研究社群。

此模型由 Juarez Bochi 新增。原始模型檢查點可以在此處找到。

這是一個支援許多低資源語言的機器翻譯模型，其效能與規模大得多的模型相當。

使用者可以直接使用 MADLAD-400 的權重，而無需對模型進行微調。

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")

>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']

Google 釋出了以下變體：

原始模型檢查點可以在此處找到。

有關所有 API 參考、程式碼示例和筆記本，請參閱 T5 的文件頁面。有關 MADLAD-400 訓練和評估的更多詳細資訊，請參閱模型卡。

< > 在 GitHub 上更新

←M2M100 Mamba→