Hugging Face
模型
資料集
空間
社群
文件
企業版
定價
登入
註冊
Learn
音訊課程文件
檢查您對課程材料的理解
音訊課程
🏡 檢視所有資源
Agents 課程
音訊課程
社群計算機視覺課程
深度強化學習課程
擴散模型課程
LLM 課程
MCP 課程
機器學習 3D 課程
遊戲機器學習課程
開源 AI 食譜
搜尋文件
BN
英
ES
法
韓
PT-BR
RU
土
簡體中文
第 0 單元. 歡迎學習本課程!
第 1 單元. 處理音訊資料
第 2 單元. 音訊應用簡介
第 3 單元. 用於音訊的 Transformer 架構
Transformer 模型複習
CTC 架構
Seq2Seq 架構
音訊分類架構
測驗
補充閱讀和資源
第 4 單元. 構建一個音樂流派分類器
第 5 單元. 自動語音識別
第 6 單元. 從文字到語音
第 7 單元. 綜合應用
第 8 單元. 終點線
課程活動
加入 Hugging Face 社群
並獲得增強的文件體驗
在模型、資料集和 Spaces 上進行協作
透過加速推理獲得更快的示例
切換文件主題
註冊
開始使用
檢查您對課程材料的理解
1. 聲碼器是什麼?
將 Transformer 輸出的頻譜圖轉換為波形的額外神經網路。
一種負責建立音訊嵌入的 Transformer 層。
一種用於預處理語音音訊以去除背景噪聲的額外神經網路。
提交
2. Wav2Vec2 是哪種架構的例子?
Seq2Seq 架構
CNN 架構
CTC 架構
提交
3. CTC 演算法中的空白標記有什麼作用?
空白標記表示句子中各個單詞之間的停頓。
空白標記是一個預測標記,用作字元組之間的硬邊界。它可以過濾掉重複的字元。
空白標記用於詞彙表中不匹配任何標記的聲音,類似於
'unknown'(未知)標記。
提交
4. 關於 CTC 模型,以下哪項陳述是錯誤的?
CTC 模型僅使用 Transformer 架構的編碼器部分。
Wav2Vec2 和 HuBERT 使用完全相同的架構,但訓練方式不同。
與其他架構相比,CTC 模型在語音識別方面往往表現最佳。
提交
5. Whisper 是以下哪種架構的例子?
Seq2Seq 架構
CNN 架構
CTC 架構
提交
6. 執行音訊分類最簡單的方法是什麼?
在音訊波形上使用編碼器-解碼器 Transformer。
使用頻譜圖,並將任務視為影像分類問題。
透過更改標籤並使用常規交叉熵損失函式訓練,將 CTC 模型轉換為通用音訊分類器。
提交
7. 對或錯?在將頻譜圖作為影像進行分類時,您總是能從影像資料增強技術(例如影像平移、裁剪或調整大小)中受益。
正確
否 (False)
提交
<
>
在 GitHub 上更新
←
音訊分類架構
完成本章
下一章
檢查您對課程材料的理解
1.
聲碼器是什麼?
2.
Wav2
Vec2 是哪種架構的例子?
3.
CT
C 演算法中的空白標記有什麼作用?
4.
關於 CT
C 模型,以下哪項陳述是錯誤
的?
5.
Whisper 是哪種架構的例子?
6.
執行音訊分類最簡單的方法是什麼?
7.
對或錯?
在將頻譜圖作為影像進行分類時,您總是能從影像資料增強技術(例如影像平移、裁剪或調整大小)中受益。
©
. This site is unofficial and not affiliated with Hugging Face, Inc.