Transformers 文件

MADLAD-400

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

MADLAD-400

PyTorch TensorFlow Flax

概述

MADLAD-400 模型釋出於論文 [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](MADLAD-400: A Multilingual And Document-Level Large Audited Dataset)。

論文摘要如下:

我們介紹了 MADLAD-400,一個基於 CommonCrawl 的、經過人工稽核的、通用領域的 3T 詞元單語資料集,涵蓋了 419 種語言。我們討論了自我稽核 MADLAD-400 時發現的侷限性,以及資料稽核在資料集建立過程中的作用。然後,我們使用公開資料訓練併發布了一個包含 10.7B 引數的多語言機器翻譯模型,該模型使用了 2500 億個詞元,覆蓋了超過 450 種語言,並發現其與更大規模的模型相比具有競爭力,我們還報告了其在不同領域的結果。此外,我們訓練了一個 8B 引數的語言模型,並評估了其在少樣本翻譯上的結果。我們將這些基線模型 1 提供給研究社群。

此模型由 Juarez Bochi 新增。原始模型檢查點可以在此處找到。

這是一個支援許多低資源語言的機器翻譯模型,其效能與規模大得多的模型相當。

使用者可以直接使用 MADLAD-400 的權重,而無需對模型進行微調。

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")

>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']

Google 釋出了以下變體:

原始模型檢查點可以在此處找到。

有關所有 API 參考、程式碼示例和筆記本,請參閱 T5 的文件頁面。有關 MADLAD-400 訓練和評估的更多詳細資訊,請參閱模型卡。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.