TTS Arena:野外文字轉語音模型基準測試
自動測量文字轉語音(TTS)模型的質量非常困難。評估語音的自然度和語調對人類來說是一項簡單任務,但對人工智慧來說卻要困難得多。這就是為什麼今天,我們很高興地宣佈推出 TTS 競技場。受 LMSys 的大型語言模型聊天機器人競技場的啟發,我們開發了一個工具,讓任何人都可以輕鬆地並排比較 TTS 模型。只需提交一些文字,聽兩個不同的模型將其朗讀出來,然後投票選出您認為最好的模型。結果將整理成排行榜,顯示社群評價最高的模型。
動機
長期以來,語音合成領域一直缺乏一種準確的衡量不同模型質量的方法。WER(詞錯誤率)等客觀指標在衡量模型質量方面並不可靠,而MOS(平均意見得分)等主觀指標通常是少數聽眾進行的小規模實驗。因此,這些測量通常對比較兩個質量大致相似的模型沒有幫助。為了解決這些缺點,我們邀請社群透過易於使用的介面對模型進行排名。透過向公眾開放此工具並傳播結果,我們旨在使模型排名民主化,並使所有人都能進行模型比較和選擇。
TTS 競技場
對人工智慧系統進行人工排名並非新方法。最近,LMSys 在他們的聊天機器人競技場中應用了這種方法,並取得了巨大成功,迄今已收集了超過 30 萬個排名。由於其成功,我們為我們的排行榜採用了類似的框架,邀請任何人對合成音訊進行排名。
排行榜允許使用者輸入文字,然後由兩個模型進行合成。聽完每個樣本後,使用者將投票選擇哪個模型聽起來更自然。由於存在人為偏見和濫用的風險,模型名稱只會在提交投票後顯示。
精選模型
我們為排行榜選擇了幾個 SOTA(最先進)模型。雖然大多數是開源模型,但我們也包含了一些專有模型,以便開發者可以將開源開發的狀態與專有模型進行比較。
釋出時可用的模型有
- ElevenLabs(專有)
- MetaVoice
- OpenVoice
- Pheme
- WhisperSpeech
- XTTS
雖然還有許多其他開源和閉源模型可用,但我們選擇這些模型是因為它們通常被認為是質量最高的公開可用模型。
TTS 排行榜
競技場投票的結果將公開顯示在專用排行榜中。請注意,排行榜最初是空的,直到積累了足夠的票數,模型才會逐漸出現。隨著評分者提交新投票,排行榜將自動更新。
與聊天機器人競技場類似,模型將使用類似於 Elo 評分系統的演算法進行排名,該系統通常用於國際象棋和其他遊戲。
結論
我們希望 TTS 競技場 能對所有開發者有所幫助。我們很樂意聽取您的反饋!如果您有任何問題或建議,請隨時透過 X/Twitter DM 或在 Space 的社群選項卡 中發起討論,告知我們。
鳴謝
特別感謝所有幫助實現這一目標的人,包括 Clémentine Fourrier、Lucian Pouget、Yoach Lacombe、Main Horse 和 Hugging Face 團隊。特別是,我要感謝 VB 的時間和技術援助。我還要感謝 Sanchit Gandhi 和 Apolinário Passos 在開發過程中提供的反饋和支援。