Transformers 文件

XLS-R

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

XLS-R

PyTorch TensorFlow Flax

概述

XLS-R 模型由 Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino、Alexei Baevski、Alexis Conneau、Michael Auli 在XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale 中提出。

論文摘要如下:

本文介紹了 XLS-R,一個基於 wav2vec 2.0 的大規模跨語言語音表示學習模型。我們訓練的模型引數多達 2B,使用了 128 種語言的近五十萬小時公開語音資料,比已知最大的先行工作多了一個數量級的公開資料。我們的評估涵蓋了廣泛的任務、領域、資料狀況和語言,包括高資源和低資源語言。在 CoVoST-2 語音翻譯基準測試中,我們對 21 個翻譯方向到英語的平均 BLEU 值提高了 7.4。對於語音識別,XLS-R 在 BABEL、MLS、CommonVoice 以及 VoxPopuli 上優於已知最佳先行工作,平均錯誤率相對降低了 14-34%。XLS-R 還在 VoxLingua107 語言識別上創下了新的最先進水平。此外,我們還表明,在模型規模足夠大的情況下,當將英語語音翻譯成其他語言時,跨語言預訓練可以超越僅英語預訓練,儘管此設定有利於單語預訓練。我們希望 XLS-R 能幫助改善世界上更多語言的語音處理任務。

相關檢查點可在 https://huggingface.co/models?other=xls_r 找到。

原始程式碼可以在此處找到。

使用技巧

  • XLS-R 是一個語音模型,接受對應於語音訊號原始波形的浮點陣列。
  • XLS-R 模型使用連線主義時間分類(CTC)進行訓練,因此模型輸出必須使用 Wav2Vec2CTCTokenizer 進行解碼。

XLS-R 的架構基於 Wav2Vec2 模型,請參閱 Wav2Vec2 的文件頁面 以獲取 API 參考。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.