Hub 文件
在 Hugging Face 上使用 ESPnet
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
在 Hugging Face 上使用 ESPnet
espnet
是一個用於語音處理的端到端工具包,包括自動語音識別、文字轉語音、語音增強、說話人識別及其他任務。
探索 Hub 中的 ESPnet
您可以透過在模型頁面左側篩選來查詢數百個 espnet
模型。
Hub 上的所有模型都附帶了有用的功能
- 一個自動生成的模型卡,包含描述、訓練配置、許可證等資訊。
- 有助於發現幷包含許可證、語言和資料集等資訊的元資料標籤。
- 可直接在瀏覽器中與模型互動的互動式小部件。
- 允許進行推理請求的推理 API。


使用現有模型
有關載入預訓練模型的完整指南,我們建議查閱官方指南)。
如果您對推理感興趣,不同任務的不同類都有一個 from_pretrained
方法,允許從 Hub 載入模型。例如:
- 用於自動語音識別的
Speech2Text
。 - 用於文字轉語音的
Text2Speech
。 - 用於音訊源分離的
SeparateSpeech
。
這是一個推理示例:
import soundfile
from espnet2.bin.tts_inference import Text2Speech
text2speech = Text2Speech.from_pretrained("model_name")
speech = text2speech("foobar")["wav"]
soundfile.write("out.wav", speech.numpy(), text2speech.fs, "PCM_16")
如果您想了解如何載入特定模型,可以點選 Use in ESPnet
,您將獲得一個可供載入的工作程式碼片段!


分享您的模型
ESPnet
輸出一個 zip
檔案,可以輕鬆上傳到 Hugging Face。有關分享模型的完整指南,我們建議查閱官方指南)。
run.sh
指令碼允許將給定模型上傳到 Hugging Face 倉庫。
./run.sh --stage 15 --skip_upload_hf false --hf_repo username/model_repo