音訊課程文件
補充閱讀材料和資源
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
補充閱讀材料和資源
本單元整合了前幾個單元的許多元件,介紹了語音到語音翻譯、語音助手和說話人識別等任務。因此,為方便起見,補充閱讀材料分為這三項新任務
語音到語音翻譯
- 使用離散單元的 STST,Meta AI:透過編碼器-解碼器模型實現 STST 的直接方法
- 閩南語直接語音到語音翻譯,Meta AI:使用編碼器-解碼器模型和兩階段解碼器實現 STST 的直接方法
- 利用無監督和弱監督資料改進直接 STST,Google:提出了利用無監督和弱監督資料訓練直接 STST 模型的新方法,並對 Transformer 架構進行了微小更改
- Translatotron-2,Google:一個能夠在翻譯語音中保留說話人特徵的系統
語音助手
- 準確的喚醒詞檢測,Amazon:一種用於裝置上應用程式的低延遲喚醒詞檢測方法
- RNN-Transducer 架構,Google:CTC 架構的修改,用於流式裝置上 ASR
會議轉錄
- pyannote.audio 技術報告,Hervé Bredin:本報告描述了
pyannote.audio
說話人識別管道背後的主要原理 - Whisper X,Max Bain 等人:使用 Whisper 模型計算單詞級時間戳的卓越方法