音訊課程文件
選擇資料集
並獲得增強的文件體驗
開始使用
選擇資料集
與任何機器學習問題一樣,我們的模型的好壞取決於我們用來訓練它的資料。語音識別資料集在策展方式和涵蓋領域方面差異很大。為了選擇正確的資料集,我們需要將我們的標準與資料集提供的功能相匹配。
在選擇資料集之前,我們首先需要了解其關鍵的定義特徵。
語音資料集的特徵
1. 時長
簡單來說,訓練時長表示資料集的大小。這類似於 NLP 資料集中訓練示例的數量。然而,更大的資料集不一定更好。如果我們想要一個泛化能力強的模型,我們希望有一個包含大量不同說話者、領域和說話風格的**多樣化**資料集。
2. 領域
領域是指資料來源於何處,無論是有聲讀物、播客、YouTube 還是金融會議。每個領域都有不同的資料分佈。例如,有聲讀物是在高質量錄音棚條件下錄製的(沒有背景噪音),文字取自書面文學。而 YouTube 的音訊可能包含更多背景噪音和更非正式的說話風格。
我們需要將我們的領域與我們在推理時預期的條件相匹配。例如,如果我們在有聲讀物上訓練模型,我們不能指望它在嘈雜的環境中表現良好。
3. 說話風格
說話風格分為以下兩類:
- 敘述型:根據稿件朗讀
- 即興型:無稿、口語化表達
音訊和文字資料反映了說話的風格。由於敘述文字是根據稿件朗讀的,因此往往發音清晰且沒有錯誤。
“Consider the task of training a model on a speech recognition dataset”
而對於即興型語音,我們可以預期更口語化的說話風格,其中包含重複、猶豫和假開始。
“Let’s uhh let's take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”
4. 轉錄風格
轉錄風格指的是目標文字是否包含標點符號、大小寫或兩者兼有。如果我們希望系統生成可用於出版物或會議轉錄的完全格式化文字,我們需要包含標點符號和大小寫的訓練資料。如果我們只需要未格式化的口語詞語,則標點符號和大小寫都不是必需的。在這種情況下,我們可以選擇不帶標點符號或大小寫的資料集,或者選擇一個帶標點符號和大小寫的資料集,然後透過預處理將其從目標文字中刪除。
Hub 上的資料集概述
以下是 Hugging Face Hub 上最受歡迎的英語語音識別資料集的概述
資料集 | 訓練時長 | 領域 | 說話風格 | 大小寫 | 標點符號 | 許可證 | 推薦用途 |
---|---|---|---|---|---|---|---|
LibriSpeech | 960 | 有聲讀物 | 敘述型 | ❌ | ❌ | CC-BY-4.0 | 學術基準 |
Common Voice 11 | 3000 | 維基百科 | 敘述型 | ✅ | ✅ | CC0-1.0 | 非母語者 |
VoxPopuli | 540 | 歐洲議會 | 演說型 | ❌ | ✅ | CC0 | 非母語者 |
TED-LIUM | 450 | TED 演講 | 演說型 | ❌ | ❌ | CC-BY-NC-ND 3.0 | 技術主題 |
GigaSpeech | 10000 | 有聲讀物、播客、YouTube | 敘述型、即興型 | ❌ | ✅ | apache-2.0 | 多領域魯棒性 |
SPGISpeech | 5000 | 金融會議 | 演說型、即興型 | ✅ | ✅ | 使用者協議 | 完整格式的轉錄 |
Earnings-22 | 119 | 金融會議 | 演說型、即興型 | ✅ | ✅ | CC-BY-SA-4.0 | 口音多樣性 |
AMI | 100 | 會議 | 即興型 | ✅ | ✅ | CC-BY-4.0 | 嘈雜語音條件 |
此表作為根據您的標準選擇資料集的參考。下面是多語言語音識別的等效表格。請注意,我們省略了訓練時長列,因為這因每個資料集的語言而異,並將其替換為每個資料集的語言數量
資料集 | 語言 | 領域 | 說話風格 | 大小寫 | 標點符號 | 許可證 | 推薦用途 |
---|---|---|---|---|---|---|---|
多語言 LibriSpeech | 6 | 有聲讀物 | 敘述型 | ❌ | ❌ | CC-BY-4.0 | 學術基準 |
Common Voice 13 | 108 | 維基百科文字和眾包語音 | 敘述型 | ✅ | ✅ | CC0-1.0 | 多樣化的說話者集 |
VoxPopuli | 15 | 歐洲議會錄音 | 即興型 | ❌ | ✅ | CC0 | 歐洲語言 |
FLEURS | 101 | 歐洲議會錄音 | 即興型 | ❌ | ❌ | CC-BY-4.0 | 多語言評估 |
有關這兩個表格中涵蓋的音訊資料集的詳細分類,請參閱部落格文章 音訊資料集完整指南。雖然 Hub 上有超過 180 個語音識別資料集,但可能沒有一個數據集能滿足您的需求。在這種情況下,也可以使用您自己的音訊資料與 🤗 Datasets。要建立自定義音訊資料集,請參閱指南 建立音訊資料集。在建立自定義音訊資料集時,請考慮在 Hub 上共享最終資料集,以便社群中的其他人可以從您的努力中受益——音訊社群是包容和廣泛的,其他人會像您欣賞他們的工作一樣欣賞您的工作。
好的!現在我們已經瞭解了選擇 ASR 資料集的所有標準,讓我們為本教程選擇一個。我們知道 Whisper 在轉錄高資源語言(如英語和西班牙語)的資料方面已經做得相當不錯,所以我們將專注於低資源多語言轉錄。我們希望保留 Whisper 預測標點和大小寫的能力,所以從第二個表格來看,Common Voice 13 是一個很好的候選資料集!
Common Voice 13
Common Voice 13 是一個眾包資料集,說話者用各種語言錄製維基百科文字。它是 Common Voice 系列的一部分,由 Mozilla 基金會發布。在撰寫本文時,Common Voice 13 是該資料集的最新版本,擁有迄今為止所有版本中最多的語言和每種語言的時長。
我們可以透過檢視 Hub 上的資料集頁面獲取 Common Voice 13 資料集的完整語言列表:mozilla-foundation/common_voice_13_0。首次檢視此頁面時,系統會要求您接受使用條款。之後,您將獲得資料集的完全訪問許可權。
一旦我們提供了使用資料集的身份驗證,就會顯示資料集預覽。資料集預覽向我們展示了每種語言資料集的前 100 個樣本。更棒的是,它載入了音訊樣本,我們可以即時收聽。在本單元中,我們將選擇迪維希語(或馬爾地夫語),這是一種在南亞島國馬爾地夫使用的印歐語系語言。雖然我們為本教程選擇了迪維希語,但這裡介紹的步驟適用於 Common Voice 13 資料集中 108 種語言中的任何一種,更普遍適用於 Hugging Face Hub 上 180 多個音訊資料集中的任何一個,因此對語言或方言沒有限制。
我們可以透過下拉選單將子集設定為 `dv` 來選擇 Common Voice 13 的迪維希語子集(`dv` 是迪維希語的語言識別符號程式碼)

如果我們點選第一個樣本上的播放按鈕,我們可以收聽音訊並檢視相應的文字。滾動檢視訓練集和測試集的樣本,以便更好地瞭解我們正在處理的音訊和文字資料。從語調和風格可以判斷,這些錄音取自敘述性語音。您可能還會注意到說話者和錄音質量的巨大差異,這是眾包資料的共同特徵。
資料集預覽是體驗音訊資料集的絕佳方式,無需事先提交。您可以在 Hub 上選擇任何資料集,滾動瀏覽樣本並收聽不同子集和分割的音訊,從而判斷它是否是適合您需求的資料集。一旦您選擇了資料集,載入資料就變得非常簡單,您可以立即開始使用它。
現在,我個人不會說迪維希語,並且預計絕大多數讀者也不會!為了知道我們微調後的模型是否好用,我們需要一種嚴格的方法來**評估**它在未見過的資料上的表現,並衡量其轉錄準確性。我們將在下一節中詳細介紹這一點!
< > 在 GitHub 上更新