Transformers 文件
MADLAD-400
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
MADLAD-400
概述
MADLAD-400 模型釋出於論文 [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](MADLAD-400: A Multilingual And Document-Level Large Audited Dataset)。
論文摘要如下:
我們介紹了 MADLAD-400,一個基於 CommonCrawl 的、經過人工稽核的、通用領域的 3T 詞元單語資料集,涵蓋了 419 種語言。我們討論了自我稽核 MADLAD-400 時發現的侷限性,以及資料稽核在資料集建立過程中的作用。然後,我們使用公開資料訓練併發布了一個包含 10.7B 引數的多語言機器翻譯模型,該模型使用了 2500 億個詞元,覆蓋了超過 450 種語言,並發現其與更大規模的模型相比具有競爭力,我們還報告了其在不同領域的結果。此外,我們訓練了一個 8B 引數的語言模型,並評估了其在少樣本翻譯上的結果。我們將這些基線模型 1 提供給研究社群。
此模型由 Juarez Bochi 新增。原始模型檢查點可以在此處找到。
這是一個支援許多低資源語言的機器翻譯模型,其效能與規模大得多的模型相當。
使用者可以直接使用 MADLAD-400 的權重,而無需對模型進行微調。
>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")
>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']
Google 釋出了以下變體:
原始模型檢查點可以在此處找到。
有關所有 API 參考、程式碼示例和筆記本,請參閱 T5 的文件頁面。有關 MADLAD-400 訓練和評估的更多詳細資訊,請參閱模型卡。