Hub 文件

在 Hugging Face 使用 SpeechBrain

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

在 Hugging Face 使用 SpeechBrain

speechbrain 是一個開源且一體化的語音對話工具包,用於音訊/語音處理。其目標是建立一個單一、靈活且使用者友好的工具包,可以輕鬆開發最先進的語音技術,包括語音識別、說話人識別、語音增強、語音分離、語言識別、多麥克風訊號處理等系統。

探索 Hub 中的 SpeechBrain

您可以透過在模型頁面左側過濾來查詢 speechbrain 模型。

中心上的所有模型都具有以下功能:

  1. 自動生成的模型卡片,包含簡要描述。
  2. 元資料標籤有助於發現模型資訊,例如語言、許可證、論文等。
  3. 可直接在瀏覽器中與模型互動的互動式小部件。
  4. 允許進行推理請求的推理 API。

使用現有模型

speechbrain 提供了不同的介面來管理不同任務的預訓練模型,例如 EncoderClassifierEncoderClassifierSepformerSeperationSpectralMaskEnhancement。這些類都有一個 from_hparams 方法,您可以使用它從 Hub 載入模型。

這是一個在城市聲音中執行聲音識別推理的示例。

import torchaudio
from speechbrain.pretrained import EncoderClassifier

classifier = EncoderClassifier.from_hparams(
    source="speechbrain/urbansound8k_ecapa"
)
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')

如果您想了解如何載入特定模型,可以點選 Use in speechbrain,您將獲得可載入的工作程式碼片段!

其他資源

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.