音訊課程文件
動手練習
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
動手練習
在本單元中,我們探討了微調 ASR 模型所面臨的挑戰,承認了在新語言上微調像 Whisper 這樣的模型(即使是小型檢查點)所需的時間和資源。為了提供動手實踐經驗,我們設計了一個練習,讓您能夠在使用較小資料集的情況下完成 ASR 模型的微調過程。本練習的主要目標是讓您熟悉該過程,而不是期望達到生產級結果。我們特意設定了一個較低的指標,以確保即使資源有限,您也能夠實現它。
以下是說明:
- 使用 `”PolyAI/minds14”` 資料集的美國英語(“en-US”)子集,微調 `”openai/whisper-tiny”` 模型。
- 使用前 **450 個示例進行訓練**,其餘用於評估。在使用 `.map` 方法預處理資料集時,請確保設定 `num_proc=1`(這將確保您的模型正確提交以進行評估)。
- 為了評估模型,請使用本單元中描述的 `wer` 和 `wer_ortho` 指標。但是,請**不要**將指標乘以 100 轉換為百分比(例如,如果 WER 為 42%,則在此練習中我們期望看到的值為 0.42)。
微調模型後,請務必使用以下 `kwargs` 將其上傳到 🤗 Hub:
kwargs = {
"dataset_tags": "PolyAI/minds14",
"finetuned_from": "openai/whisper-tiny",
"tasks": "automatic-speech-recognition",
}
如果您的模型的標準化 WER (`wer`) 低於 **0.37**,您將透過此項作業。
隨意構建您的模型演示,並在 Discord 上分享!如果您有問題,請在 #audio-study-group 頻道中提出。
< > 在 GitHub 上更新