Transformers 文件
XLSR-Wav2Vec2
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
XLSR-Wav2Vec2
概述
XLSR-Wav2Vec2 模型由 Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed、Michael Auli 在《無監督跨語言語音識別表示學習》中提出。
論文摘要如下:
本文介紹了 XLSR,它透過預訓練一個單一模型,利用多種語言的原始語音波形來學習跨語言語音表示。我們基於 wav2vec 2.0,該模型透過解決蒙版潛在語音表示上的對比任務進行訓練,並聯合學習跨語言共享的潛在量化。結果模型在標記資料上進行微調,實驗表明跨語言預訓練顯著優於單語預訓練。在 CommonVoice 基準測試中,XLSR 的音素錯誤率相比已知最佳結果相對降低了 72%。在 BABEL 上,我們的方法相比同類系統將詞錯誤率相對提高了 16%。我們的方法實現了一個多語言語音識別模型,其效能與強大的單一模型相當。分析表明,潛在的離散語音表示在不同語言之間共享,並且相關語言之間的共享程度更高。我們希望透過釋出在 53 種語言中預訓練的大型模型 XLSR-53,來促進低資源語音理解研究。
原始程式碼可以在此處找到。
注意:Meta (FAIR) 釋出了新版Wav2Vec2-BERT 2.0 - 它在 4.5M 小時音訊上進行了預訓練。我們特別推薦將其用於微調任務,例如本指南所述。
使用提示
- XLSR-Wav2Vec2 是一個語音模型,接受對應於語音訊號原始波形的浮點陣列。
- XLSR-Wav2Vec2 模型使用連線主義時間分類 (CTC) 進行訓練,因此模型輸出必須使用Wav2Vec2CTCTokenizer進行解碼。
XLSR-Wav2Vec2 的架構基於 Wav2Vec2 模型,因此可以參考Wav2Vec2 的文件頁面。