Hub

在 Hugging Face 使用 SpeechBrain

speechbrain 是一個開源且一體化的語音對話工具包，用於音訊/語音處理。其目標是建立一個單一、靈活且使用者友好的工具包，可以輕鬆開發最先進的語音技術，包括語音識別、說話人識別、語音增強、語音分離、語言識別、多麥克風訊號處理等系統。

探索 Hub 中的 SpeechBrain

您可以透過在模型頁面左側過濾來查詢 speechbrain 模型。

中心上的所有模型都具有以下功能：

自動生成的模型卡片，包含簡要描述。
元資料標籤有助於發現模型資訊，例如語言、許可證、論文等。
可直接在瀏覽器中與模型互動的互動式小部件。
允許進行推理請求的推理 API。

使用現有模型

speechbrain 提供了不同的介面來管理不同任務的預訓練模型，例如 EncoderClassifier、EncoderClassifier、SepformerSeperation 和 SpectralMaskEnhancement。這些類都有一個 from_hparams 方法，您可以使用它從 Hub 載入模型。

這是一個在城市聲音中執行聲音識別推理的示例。

import torchaudio
from speechbrain.pretrained import EncoderClassifier

classifier = EncoderClassifier.from_hparams(
    source="speechbrain/urbansound8k_ecapa"
)
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')

如果您想了解如何載入特定模型，可以點選 Use in speechbrain，您將獲得可載入的工作程式碼片段！

其他資源

SpeechBrain 官網。
SpeechBrain 文件。

< > 在 GitHub 上更新