音訊課程文件
補充閱讀材料和資源
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
補充閱讀和資源
本單元提供了語音識別的實踐介紹,語音識別是音訊領域最受歡迎的任務之一。想了解更多嗎?你可以在這裡找到其他資源,幫助你加深對這些主題的理解,並提升你的學習體驗。
- Whisper Talk by Jong Wook Kim:Whisper 模型作者 Jong Wook Kim 的一次關於 Whisper 模型的演講,解釋了其動機、架構、訓練和結果
- 端到端語音基準 (ESB):一篇全面論證使用正字法 WER 而非標準化 WER 來評估 ASR 系統的論文,並提出了一個配套的基準
- 為多語言 ASR 微調 Whisper:一篇深入的部落格文章,更詳細地解釋了 Whisper 模型的工作原理,以及特徵提取器和分詞器所涉及的預處理和後處理步驟
- 為多語言 ASR 微調 MMS 介面卡模型:一份用於微調 Meta AI 新的 MMS 語音識別模型的端到端指南,凍結基礎模型權重,僅微調少量介面卡層
- 在 🤗 Transformers 中使用 N-gram 增強 Wav2Vec2:一篇關於將 CTC 模型與外部語言模型 (LM) 結合以解決拼寫和標點錯誤的部落格文章