Hub 文件

在 Hugging Face 上使用 ESPnet

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

在 Hugging Face 上使用 ESPnet

espnet 是一個用於語音處理的端到端工具包,包括自動語音識別、文字轉語音、語音增強、說話人識別及其他任務。

探索 Hub 中的 ESPnet

您可以透過在模型頁面左側篩選來查詢數百個 espnet 模型。

Hub 上的所有模型都附帶了有用的功能

  1. 一個自動生成的模型卡,包含描述、訓練配置、許可證等資訊。
  2. 有助於發現幷包含許可證、語言和資料集等資訊的元資料標籤。
  3. 可直接在瀏覽器中與模型互動的互動式小部件。
  4. 允許進行推理請求的推理 API。

使用現有模型

有關載入預訓練模型的完整指南,我們建議查閱官方指南)。

如果您對推理感興趣,不同任務的不同類都有一個 from_pretrained 方法,允許從 Hub 載入模型。例如:

  • 用於自動語音識別的 Speech2Text
  • 用於文字轉語音的 Text2Speech
  • 用於音訊源分離的 SeparateSpeech

這是一個推理示例:

import soundfile
from espnet2.bin.tts_inference import Text2Speech

text2speech = Text2Speech.from_pretrained("model_name")
speech = text2speech("foobar")["wav"]
soundfile.write("out.wav", speech.numpy(), text2speech.fs, "PCM_16")

如果您想了解如何載入特定模型,可以點選 Use in ESPnet,您將獲得一個可供載入的工作程式碼片段!

分享您的模型

ESPnet 輸出一個 zip 檔案,可以輕鬆上傳到 Hugging Face。有關分享模型的完整指南,我們建議查閱官方指南)。

run.sh 指令碼允許將給定模型上傳到 Hugging Face 倉庫。

./run.sh --stage 15 --skip_upload_hf false --hf_repo username/model_repo

額外資源

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.