音訊課程文件

第 6 單元. 從文字到語音

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

第六單元. 從文字到語音

在上一單元中,你學習瞭如何使用 Transformers 將口語語音轉換為文字。現在讓我們反過來看看如何將給定的輸入文字轉換為聽起來像人類語音的音訊輸出。

我們將在本單元中研究的任務稱為“文字到語音”(TTS)。能夠將文字轉換為可聽人類語音的模型具有廣泛的潛在應用

  • 輔助應用:思考那些可以利用這些模型,使視力障礙者透過聲音媒介訪問數字內容的工具。
  • 有聲書旁白:將書面書籍轉換為音訊形式,使文學作品更容易被喜歡聽書或閱讀有困難的人士所接觸。
  • 虛擬助手:TTS 模型是 Siri、Google Assistant 或 Amazon Alexa 等虛擬助手的基本組成部分。一旦它們使用分類模型捕捉到喚醒詞,並使用 ASR 模型處理你的請求,它們就可以使用 TTS 模型來回應你的查詢。
  • 娛樂、遊戲和語言學習:為你的 NPC 角色配音,敘述遊戲事件,或幫助語言學習者瞭解單詞和短語的正確發音和語調示例。

這些只是幾個例子,我確信你可以想象出更多!然而,能力越大,責任越大,必須強調的是,TTS 模型有可能被用於惡意目的。例如,如果擁有足夠的語音樣本,惡意行為者可能會建立令人信服的虛假錄音,導致未經授權地使用某人的聲音進行欺詐或操縱。如果你計劃收集資料以微調你自己的系統,請仔細考慮隱私和知情同意。語音資料應在獲得個人明確同意的情況下獲取,確保他們瞭解其聲音在 TTS 系統中使用的目的、範圍和潛在風險。請負責任地使用文字到語音技術。

你將學到什麼以及你將構建什麼

在本單元中,我們將討論

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.