音訊課程文件
補充閱讀材料和資源
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
補充閱讀和資源
本單元介紹了文字轉語音任務,並涵蓋了大量內容。想了解更多嗎?在這裡,您將找到更多資源,幫助您加深對這些主題的理解,並提升您的學習體驗。
- HiFi-GAN:用於高效高保真語音合成的生成對抗網路:一篇介紹用於語音合成的 HiFi-GAN 的論文。
- X-Vectors:用於說話人識別的魯棒 DNN 嵌入:一篇介紹用於說話人嵌入的 X-Vector 方法的論文。
- FastSpeech 2:快速高質量的端到端文字轉語音:一篇介紹 FastSpeech 2 的論文,這是另一個流行的文字轉語音模型,使用非自迴歸 TTS 方法。
- 一種在真實世界自發語音上進行文字轉語音合成的向量量化方法:一篇介紹 MQTTS 的論文,MQTTS 是一種自迴歸 TTS 系統,用量化離散表示替換了梅爾頻譜圖。