音訊課程文件

第 2 單元. 音訊應用簡介

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

第二單元:音訊應用程式簡介

歡迎來到 Hugging Face 音訊課程的第二單元!之前,我們探討了音訊資料的基礎知識,並學習瞭如何使用 🤗 Datasets 和 🤗 Transformers 庫處理音訊資料集。我們討論了取樣率、幅度、位深、波形和頻譜圖等各種概念,並瞭解瞭如何預處理資料以準備用於預訓練模型。

現在您可能迫不及待地想了解 🤗 Transformers 可以處理的音訊任務,您已經擁有了所有必要的基礎知識,可以深入學習了!讓我們來看看一些令人驚歎的音訊任務示例:

  • 音訊分類:輕鬆地將音訊片段分類到不同的類別中。您可以識別錄音是狗吠還是貓叫,或者一首歌屬於哪種音樂流派。
  • 自動語音識別:透過自動轉錄將音訊片段轉換為文字。您可以獲得某人講話錄音的文字表示,例如“你今天過得怎麼樣?”。這對於記筆記非常有用!
  • 說話人識別:有沒有想過錄音中是誰在說話?使用 🤗 Transformers,您可以識別音訊片段中在任何給定時間是誰在說話。想象一下,您可以在他們對話的錄音中區分“Alice”和“Bob”。
  • 文字轉語音:建立文字的旁白版本,可用於製作有聲讀物、幫助殘障人士或為遊戲中的 NPC 配音。使用 🤗 Transformers,您可以輕鬆完成這些!

在本單元中,您將學習如何使用 🤗 Transformers 的 pipeline() 函式來完成其中一些任務的預訓練模型。具體來說,我們將瞭解預訓練模型如何用於音訊分類、自動語音識別和音訊生成。讓我們開始吧!

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.