Hub 文件
在 Hugging Face 使用 SpeechBrain
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
在 Hugging Face 使用 SpeechBrain
speechbrain
是一個開源且一體化的語音對話工具包,用於音訊/語音處理。其目標是建立一個單一、靈活且使用者友好的工具包,可以輕鬆開發最先進的語音技術,包括語音識別、說話人識別、語音增強、語音分離、語言識別、多麥克風訊號處理等系統。
探索 Hub 中的 SpeechBrain
您可以透過在模型頁面左側過濾來查詢 speechbrain
模型。
中心上的所有模型都具有以下功能:
- 自動生成的模型卡片,包含簡要描述。
- 元資料標籤有助於發現模型資訊,例如語言、許可證、論文等。
- 可直接在瀏覽器中與模型互動的互動式小部件。
- 允許進行推理請求的推理 API。
使用現有模型
speechbrain
提供了不同的介面來管理不同任務的預訓練模型,例如 EncoderClassifier
、EncoderClassifier
、SepformerSeperation
和 SpectralMaskEnhancement
。這些類都有一個 from_hparams
方法,您可以使用它從 Hub 載入模型。
這是一個在城市聲音中執行聲音識別推理的示例。
import torchaudio
from speechbrain.pretrained import EncoderClassifier
classifier = EncoderClassifier.from_hparams(
source="speechbrain/urbansound8k_ecapa"
)
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')
如果您想了解如何載入特定模型,可以點選 Use in speechbrain
,您將獲得可載入的工作程式碼片段!



