音訊課程文件

動手練習

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

動手練習

在本單元中,我們探討了文字到語音音訊任務,討論了現有資料集、預訓練模型以及為新語言微調 SpeechT5 的細微差別。

正如你所看到的,在資源匱乏的情況下,為文字到語音任務微調模型可能具有挑戰性。同時,評估文字到語音模型也並非易事。

由於這些原因,本次動手練習將側重於練習技能,而不是達到某個特定的指標值。

此任務的目標是在你選擇的資料集上微調 SpeechT5。你可以自由選擇來自相同 voxpopuli 資料集的另一種語言,或者選擇本單元中列出的任何其他資料集。

請注意訓練資料的大小!為了在 Google Colab 的免費 GPU 上進行訓練,我們建議將訓練資料限制在 10-15 小時左右。

完成微調過程後,透過將其上傳到 Hub 來分享你的模型。請務必使用適當的 kwargs 或在 Hub UI 中將你的模型標記為 text-to-speech 模型。

請記住,本次練習的主要目的是為你提供充足的練習,讓你能夠磨練技能,並更深入地理解文字到語音音訊任務。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.