音訊課程文件
您將學到什麼以及將構建什麼
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
您將學到什麼以及將構建什麼
在本節中,我們將探討如何使用 Transformer 將口語轉換為文字,這項任務稱為 語音識別。

語音識別,也稱為自動語音識別(ASR)或語音轉文字(STT),是最流行和最令人興奮的口語處理任務之一。它廣泛應用於各種應用程式中,包括聽寫、語音助手、影片字幕和會議記錄。
您可能之前多次使用過語音識別系統而沒有意識到!想想您智慧手機裝置中的數字助手(Siri、Google Assistant、Alexa)。當您使用這些助手時,它們做的第一件事就是將您的口語轉錄為文字,以便用於任何下游任務(例如為您查詢天氣 🌤️)。
請嘗試下面的語音識別演示。您可以選擇使用麥克風錄製自己,或者拖放音訊樣本進行轉錄。
語音識別是一項具有挑戰性的任務,因為它需要音訊和文字的共同知識。輸入音訊可能有很多背景噪音,並且說話者可能有不同的口音,這使得很難識別口語。文字中可能包含沒有聲學聲音的字元,例如標點符號,這些字元很難僅憑音訊推斷出來。這些都是我們在構建有效的語音識別系統時必須解決的障礙!
既然我們已經定義了任務,我們就可以開始更詳細地研究語音識別。在本單元結束時,您將對可用的不同預訓練語音識別模型以及如何將它們與 🤗 Transformers 庫一起使用有很好的基本理解。您還將瞭解在特定領域或語言上微調 ASR 模型的程式,使您能夠為遇到的任何任務構建高效能系統。您可以透過構建一個即時演示向您的朋友和家人展示您的模型,該演示可以將任何口語轉換為文字!
具體來說,我們將涵蓋:
< > 在 GitHub 上更新