音訊課程文件
動手練習
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
動手練習
在本單元中,我們探討了文字到語音音訊任務,討論了現有資料集、預訓練模型以及為新語言微調 SpeechT5 的細微差別。
正如你所看到的,在資源匱乏的情況下,為文字到語音任務微調模型可能具有挑戰性。同時,評估文字到語音模型也並非易事。
由於這些原因,本次動手練習將側重於練習技能,而不是達到某個特定的指標值。
此任務的目標是在你選擇的資料集上微調 SpeechT5。你可以自由選擇來自相同 voxpopuli
資料集的另一種語言,或者選擇本單元中列出的任何其他資料集。
請注意訓練資料的大小!為了在 Google Colab 的免費 GPU 上進行訓練,我們建議將訓練資料限制在 10-15 小時左右。
完成微調過程後,透過將其上傳到 Hub 來分享你的模型。請務必使用適當的 kwargs 或在 Hub UI 中將你的模型標記為 text-to-speech
模型。
請記住,本次練習的主要目的是為你提供充足的練習,讓你能夠磨練技能,並更深入地理解文字到語音音訊任務。
< > 在 GitHub 上更新