動手練習

在本單元中，我們探討了文字到語音音訊任務，討論了現有資料集、預訓練模型以及為新語言微調 SpeechT5 的細微差別。

正如你所看到的，在資源匱乏的情況下，為文字到語音任務微調模型可能具有挑戰性。同時，評估文字到語音模型也並非易事。

由於這些原因，本次動手練習將側重於練習技能，而不是達到某個特定的指標值。

此任務的目標是在你選擇的資料集上微調 SpeechT5。你可以自由選擇來自相同 voxpopuli 資料集的另一種語言，或者選擇本單元中列出的任何其他資料集。

請注意訓練資料的大小！為了在 Google Colab 的免費 GPU 上進行訓練，我們建議將訓練資料限制在 10-15 小時左右。

完成微調過程後，透過將其上傳到 Hub 來分享你的模型。請務必使用適當的 kwargs 或在 Hub UI 中將你的模型標記為 text-to-speech 模型。

請記住，本次練習的主要目的是為你提供充足的練習，讓你能夠磨練技能，並更深入地理解文字到語音音訊任務。

音訊課程