音訊課程文件

補充閱讀材料和資源

音訊課程

第 0 單元. 歡迎學習本課程！

第 1 單元. 處理音訊資料

第 2 單元. 音訊應用簡介

第 3 單元. 用於音訊的 Transformer 架構

第 4 單元. 構建一個音樂流派分類器

第 5 單元. 自動語音識別

第 6 單元. 從文字到語音

你將學到什麼以及你將構建什麼文字轉語音資料集用於文字轉語音的預訓練模型微調 SpeechT5 評估文字轉語音模型動手練習補充閱讀和資源

第 7 單元. 綜合應用

第 8 單元. 終點線

課程活動

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

補充閱讀和資源

本單元介紹了文字轉語音任務，並涵蓋了大量內容。想了解更多嗎？在這裡，您將找到更多資源，幫助您加深對這些主題的理解，並提升您的學習體驗。

HiFi-GAN：用於高效高保真語音合成的生成對抗網路：一篇介紹用於語音合成的 HiFi-GAN 的論文。
X-Vectors：用於說話人識別的魯棒 DNN 嵌入：一篇介紹用於說話人嵌入的 X-Vector 方法的論文。
FastSpeech 2：快速高質量的端到端文字轉語音：一篇介紹 FastSpeech 2 的論文，這是另一個流行的文字轉語音模型，使用非自迴歸 TTS 方法。
一種在真實世界自發語音上進行文字轉語音合成的向量量化方法：一篇介紹 MQTTS 的論文，MQTTS 是一種自迴歸 TTS 系統，用量化離散表示替換了梅爾頻譜圖。

< > 在 GitHub 上更新

←動手練習你將學到什麼以及你將構建什麼→

© . This site is unofficial and not affiliated with Hugging Face, Inc.