音訊課程文件

文字到語音資料集

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

文字到語音資料集

文字到語音任務(也稱為語音合成)面臨著一系列挑戰。

首先,就像前面討論的自動語音識別一樣,文字和語音之間的對齊可能很棘手。
然而,與 ASR 不同,TTS 是一個**一對多**的對映問題,即相同的文字可以用許多不同的方式合成。想想你日常生活中聽到的語音中聲音和說話風格的多樣性——每個人說同一句話的方式都不同,但它們都是有效和正確的!即使是不同的輸出(頻譜圖或音訊波形)也可以對應相同的真實值。模型必須學習為每個音素、單詞或句子生成正確的持續時間和時序,這可能具有挑戰性,特別是對於長而複雜的句子。

其次,存在長距離依賴問題:語言具有時間性,理解句子的含義通常需要考慮周圍詞語的上下文。確保 TTS 模型在長序列中捕獲並保留上下文資訊對於生成連貫自然的語音至關重要。

最後,訓練 TTS 模型通常需要文字和相應語音錄音的配對資料。最重要的是,為了確保模型能夠為各種說話者和說話風格生成自然的語音,資料應包含來自多個說話者的多樣化且具有代表性的語音樣本。收集此類資料成本高昂、耗時,並且對於某些語言來說是不可行的。你可能會想,為什麼不直接使用為 ASR(自動語音識別)設計的資料集,並將其用於訓練 TTS 模型呢?不幸的是,自動語音識別 (ASR) 資料集並不是最佳選擇。使其對 ASR 有益的特徵,例如過多的背景噪音,通常在 TTS 中是不受歡迎的。能夠從嘈雜的街道錄音中識別語音是很棒的,但如果你的語音助手在背景中有汽車喇叭聲和施工噪音時回覆你,那就不是那麼回事了。儘管如此,一些 ASR 資料集有時對微調很有用,因為尋找高質量、多語言、多說話者的 TTS 資料集可能非常具有挑戰性。

讓我們探索一些適合 TTS 的資料集,你可以在 🤗 Hub 上找到它們。

LJSpeech

LJSpeech 是一個包含 13,100 個英語音訊片段及其相應轉錄的資料集。該資料集包含一名說話者閱讀 7 本英文非虛構書籍句子的錄音。LJSpeech 因其高質量的音訊和多樣化的語言內容,常被用作評估 TTS 模型的基準。

多語言 LibriSpeech

多語言 LibriSpeech 是 LibriSpeech 資料集的多語言擴充套件,後者是一個大規模的英文有聲讀物集合。多語言 LibriSpeech 在此基礎上增加了其他語言,如德語、荷蘭語、西班牙語、法語、義大利語、葡萄牙語和波蘭語。它提供每種語言的音訊錄音和對齊的轉錄。該資料集為開發多語言 TTS 系統和探索跨語言語音合成技術提供了寶貴的資源。

VCTK(語音克隆工具包)

VCTK 是一個專門為文字到語音研究和開發設計的資料集。它包含 110 位說不同口音英語的說話者的音訊錄音。每位說話者朗讀大約 400 個句子,這些句子選自報紙、彩虹段落和用於語音口音檔案的誘發段落。VCTK 為訓練具有各種聲音和口音的 TTS 模型提供了寶貴的資源,從而實現更自然和多樣化的語音合成。

Libri-TTS/ LibriTTS-R

Libri-TTS/ LibriTTS-R 是一個多說話者的英語語料庫,包含大約 585 小時以 24kHz 取樣率錄製的英語語音,由 Heiga Zen 在 Google Speech 和 Google Brain 團隊成員的協助下準備。LibriTTS 語料庫專為 TTS 研究設計。它源自 LibriSpeech 語料庫的原始材料(LibriVox 的 mp3 音訊檔案和 Project Gutenberg 的文字檔案)。與 LibriSpeech 語料庫的主要區別如下所示:

  • 音訊檔案為 24kHz 取樣率。
  • 語音在句子中斷處分割。
  • 包含原始文字和標準化文字。
  • 可以提取上下文資訊(例如,相鄰句子)。
  • 排除背景噪音明顯的語句。

組建一個好的 TTS 資料集並非易事,因為這樣的資料集需要具備以下幾個關鍵特徵:

  • 高質量和多樣化的錄音,涵蓋各種語音模式、口音、語言和情感。錄音應該清晰,沒有背景噪音,並展現自然的語音特徵。
  • 轉錄:每個音訊錄音都應附有其相應的文字轉錄。
  • 語言內容的多樣性:資料集應包含各種語言內容,包括不同型別的句子、短語和單詞。它應涵蓋各種主題、體裁和領域,以確保模型能夠處理不同的語言上下文。

好訊息是,你不太可能需要從頭開始訓練 TTS 模型。在下一節中,我們將介紹 🤗 Hub 上可用的預訓練模型。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.