Transformers 文件
XLM-V
並獲得增強的文件體驗
開始使用
XLM-V
概述
XLM-V 是一種多語言語言模型,擁有百萬詞彙量,在來自 Common Crawl(與 XLM-R 相同)的 2.5TB 資料上進行訓練。它由 Davis Liang、Hila Gonen、Yuning Mao、Rui Hou、Naman Goyal、Marjan Ghazvininejad、Luke Zettlemoyer 和 Madian Khabsa 在 XLM-V:克服多語言掩碼語言模型中的詞彙瓶頸 論文中提出。
摘自 XLM-V 論文摘要:
大型多語言語言模型通常依賴於一個在 100 多種語言中共享的單一詞彙表。隨著這些模型引數數量和深度的增加,詞彙量基本保持不變。這種詞彙瓶頸限制了 XLM-R 等多語言模型的表示能力。在本文中,我們引入了一種新方法,用於擴充套件到非常大的多語言詞彙表,其方法是:弱化詞彙重疊度低的語言之間的詞元共享,並分配詞彙容量以實現對每種單獨語言的充分覆蓋。使用我們詞彙表的詞元化通常比 XLM-R 更具語義意義且更短。利用這種改進的詞彙表,我們訓練了 XLM-V,一個擁有百萬詞彙量的多語言語言模型。XLM-V 在我們測試的每一項任務中都優於 XLM-R,包括自然語言推理(XNLI)、問答(MLQA、XQuAD、TyDiQA)和命名實體識別(WikiAnn),以及低資源任務(Americas NLI、MasakhaNER)。
該模型由 stefan-it 貢獻,包括對 XLM-V 在下游任務上的詳細實驗。實驗倉庫可在 此處 找到。
使用技巧
- XLM-V 與 XLM-RoBERTa 模型架構相容,只需轉換
fairseq
庫中的模型權重即可。 XLMTokenizer
實現用於載入詞彙表並執行詞元化。
XLM-V(基礎大小)模型可在 facebook/xlm-v-base
識別符號下找到。
XLM-V 架構與 XLM-RoBERTa 相同,API 參考和示例請參閱 XLM-RoBERTa 文件。