音訊課程文件

補充閱讀材料和資源

音訊課程

第 0 單元. 歡迎學習本課程！

第 1 單元. 處理音訊資料

第 2 單元. 音訊應用簡介

第 3 單元. 用於音訊的 Transformer 架構

第 4 單元. 構建一個音樂流派分類器

第 5 單元. 自動語音識別

第 6 單元. 從文字到語音

第 7 單元. 綜合應用

你將學到什麼以及你將構建什麼語音到語音翻譯建立語音助手會議轉錄動手練習補充閱讀材料和資源

第 8 單元. 終點線

課程活動

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

補充閱讀材料和資源

本單元整合了前幾個單元的許多元件，介紹了語音到語音翻譯、語音助手和說話人識別等任務。因此，為方便起見，補充閱讀材料分為這三項新任務

語音到語音翻譯

使用離散單元的 STST，Meta AI：透過編碼器-解碼器模型實現 STST 的直接方法
閩南語直接語音到語音翻譯，Meta AI：使用編碼器-解碼器模型和兩階段解碼器實現 STST 的直接方法
利用無監督和弱監督資料改進直接 STST，Google：提出了利用無監督和弱監督資料訓練直接 STST 模型的新方法，並對 Transformer 架構進行了微小更改
Translatotron-2，Google：一個能夠在翻譯語音中保留說話人特徵的系統

語音助手

準確的喚醒詞檢測，Amazon：一種用於裝置上應用程式的低延遲喚醒詞檢測方法
RNN-Transducer 架構，Google：CTC 架構的修改，用於流式裝置上 ASR

會議轉錄

pyannote.audio 技術報告，Hervé Bredin：本報告描述了 pyannote.audio 說話人識別管道背後的主要原理
Whisper X，Max Bain 等人：使用 Whisper 模型計算單詞級時間戳的卓越方法

< > 在 GitHub 上更新

←動手練習恭喜！→

© . This site is unofficial and not affiliated with Hugging Face, Inc.