音訊課程文件

動手練習

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

動手練習

在本單元中,我們整合了課程前六個單元所涵蓋的材料,構建了三個整合音訊應用程式。正如您所體驗到的,透過使用您在本課程中獲得的基礎技能,構建更復雜的音訊工具是完全可以實現的。

動手練習選取了本單元涵蓋的一個應用程式,並對其進行了一些多語言調整🌍 您的目標是獲取本單元第一節中的級聯語音到語音翻譯 Gradio 演示,並將其更新為翻譯成任何非英語語言。也就是說,該演示應該接收語言 X 中的語音,並將其翻譯成語言 Y 中的語音,其中目標語言 Y 不是英語。您應該首先在您的 Hugging Face 名稱空間下複製模板。無需使用 GPU 加速裝置 - 免費的 CPU 層執行良好🤗 但是,您應該確保您的演示的可見性設定為公共。這是必需的,以便我們能夠訪問您的演示並檢查其正確性。

有關更新語音翻譯功能以執行多語言語音翻譯的提示,請參見語音到語音翻譯部分。按照這些說明,您應該能夠更新演示,從語言 X 的語音翻譯成語言 Y 的文字,這只是任務的一半!

要從語言 Y 的文字合成語言 Y 的語音(其中 Y 是多語言),您需要使用多語言 TTS 檢查點。為此,您可以使用在之前的動手練習中微調過的 SpeechT5 TTS 檢查點,或預訓練的多語言 TTS 檢查點。預訓練檢查點有兩種選擇,一種是檢查點sanchit-gandhi/speecht5_tts_vox_nl,這是一個在 VoxPopuli 資料集的荷蘭語部分上微調過的 SpeechT5 檢查點,另一種是 MMS TTS 檢查點(請參閱TTS 預訓練模型部分)。

根據我們對荷蘭語的實驗經驗,使用 MMS TTS 檢查點比微調的 SpeechT5 檢查點效果更好,但您可能會發現您的微調 TTS 檢查點在您的語言中更受歡迎。如果您決定使用 MMS TTS 檢查點,您需要更新演示的requirements.txt檔案以從 PR 分支安裝 transformers

git+https://github.com/hollance/transformers.git@6900e8ba6532162a8613d2270ec2286c3f58f57b

您的演示應該以音訊檔案作為輸入,並返回另一個音訊檔案作為輸出,與模板演示中 speech_to_speech_translation 函式的簽名相匹配。因此,我們建議您保持主函式 speech_to_speech_translation 不變,並根據需要僅更新 translatesynthesise 函式。

一旦您將您的演示作為 Gradio 演示構建到 Hugging Face Hub 上,您就可以提交它進行評估。前往 Space audio-course-u7-assessment 並在提示時提供您的演示的倉庫 ID。此 Space 將透過向您的演示傳送一個示例音訊檔案並檢查返回的音訊檔案是否確實是非英語來檢查您的演示是否已正確構建。如果您的演示工作正常,您將在整體 進度空間 中您的姓名旁邊看到一個綠色對勾 ✅

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.