選擇資料集

與任何機器學習問題一樣，我們的模型的好壞取決於我們用來訓練它的資料。語音識別資料集在策展方式和涵蓋領域方面差異很大。為了選擇正確的資料集，我們需要將我們的標準與資料集提供的功能相匹配。

在選擇資料集之前，我們首先需要了解其關鍵的定義特徵。

語音資料集的特徵

1. 時長

簡單來說，訓練時長表示資料集的大小。這類似於 NLP 資料集中訓練示例的數量。然而，更大的資料集不一定更好。如果我們想要一個泛化能力強的模型，我們希望有一個包含大量不同說話者、領域和說話風格的**多樣化**資料集。

2. 領域

領域是指資料來源於何處，無論是有聲讀物、播客、YouTube 還是金融會議。每個領域都有不同的資料分佈。例如，有聲讀物是在高質量錄音棚條件下錄製的（沒有背景噪音），文字取自書面文學。而 YouTube 的音訊可能包含更多背景噪音和更非正式的說話風格。

我們需要將我們的領域與我們在推理時預期的條件相匹配。例如，如果我們在有聲讀物上訓練模型，我們不能指望它在嘈雜的環境中表現良好。

3. 說話風格

說話風格分為以下兩類：

敘述型：根據稿件朗讀
即興型：無稿、口語化表達

音訊和文字資料反映了說話的風格。由於敘述文字是根據稿件朗讀的，因此往往發音清晰且沒有錯誤。

“Consider the task of training a model on a speech recognition dataset”

而對於即興型語音，我們可以預期更口語化的說話風格，其中包含重複、猶豫和假開始。

“Let’s uhh let's take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”

4. 轉錄風格

轉錄風格指的是目標文字是否包含標點符號、大小寫或兩者兼有。如果我們希望系統生成可用於出版物或會議轉錄的完全格式化文字，我們需要包含標點符號和大小寫的訓練資料。如果我們只需要未格式化的口語詞語，則標點符號和大小寫都不是必需的。在這種情況下，我們可以選擇不帶標點符號或大小寫的資料集，或者選擇一個帶標點符號和大小寫的資料集，然後透過預處理將其從目標文字中刪除。

Hub 上的資料集概述

以下是 Hugging Face Hub 上最受歡迎的英語語音識別資料集的概述

資料集	訓練時長	領域	說話風格	大小寫	標點符號	許可證	推薦用途
LibriSpeech	960	有聲讀物	敘述型	❌	❌	CC-BY-4.0	學術基準
Common Voice 11	3000	維基百科	敘述型	✅	✅	CC0-1.0	非母語者
VoxPopuli	540	歐洲議會	演說型	❌	✅	CC0	非母語者
TED-LIUM	450	TED 演講	演說型	❌	❌	CC-BY-NC-ND 3.0	技術主題
GigaSpeech	10000	有聲讀物、播客、YouTube	敘述型、即興型	❌	✅	apache-2.0	多領域魯棒性
SPGISpeech	5000	金融會議	演說型、即興型	✅	✅	使用者協議	完整格式的轉錄
Earnings-22	119	金融會議	演說型、即興型	✅	✅	CC-BY-SA-4.0	口音多樣性
AMI	100	會議	即興型	✅	✅	CC-BY-4.0	嘈雜語音條件

此表作為根據您的標準選擇資料集的參考。下面是多語言語音識別的等效表格。請注意，我們省略了訓練時長列，因為這因每個資料集的語言而異，並將其替換為每個資料集的語言數量

資料集	語言	領域	說話風格	大小寫	標點符號	許可證	推薦用途
多語言 LibriSpeech	6	有聲讀物	敘述型	❌	❌	CC-BY-4.0	學術基準
Common Voice 13	108	維基百科文字和眾包語音	敘述型	✅	✅	CC0-1.0	多樣化的說話者集
VoxPopuli	15	歐洲議會錄音	即興型	❌	✅	CC0	歐洲語言
FLEURS	101	歐洲議會錄音	即興型	❌	❌	CC-BY-4.0	多語言評估

有關這兩個表格中涵蓋的音訊資料集的詳細分類，請參閱部落格文章音訊資料集完整指南。雖然 Hub 上有超過 180 個語音識別資料集，但可能沒有一個數據集能滿足您的需求。在這種情況下，也可以使用您自己的音訊資料與 🤗 Datasets。要建立自定義音訊資料集，請參閱指南建立音訊資料集。在建立自定義音訊資料集時，請考慮在 Hub 上共享最終資料集，以便社群中的其他人可以從您的努力中受益——音訊社群是包容和廣泛的，其他人會像您欣賞他們的工作一樣欣賞您的工作。

好的！現在我們已經瞭解了選擇 ASR 資料集的所有標準，讓我們為本教程選擇一個。我們知道 Whisper 在轉錄高資源語言（如英語和西班牙語）的資料方面已經做得相當不錯，所以我們將專注於低資源多語言轉錄。我們希望保留 Whisper 預測標點和大小寫的能力，所以從第二個表格來看，Common Voice 13 是一個很好的候選資料集！

Common Voice 13

Common Voice 13 是一個眾包資料集，說話者用各種語言錄製維基百科文字。它是 Common Voice 系列的一部分，由 Mozilla 基金會發布。在撰寫本文時，Common Voice 13 是該資料集的最新版本，擁有迄今為止所有版本中最多的語言和每種語言的時長。

我們可以透過檢視 Hub 上的資料集頁面獲取 Common Voice 13 資料集的完整語言列表：mozilla-foundation/common_voice_13_0。首次檢視此頁面時，系統會要求您接受使用條款。之後，您將獲得資料集的完全訪問許可權。

一旦我們提供了使用資料集的身份驗證，就會顯示資料集預覽。資料集預覽向我們展示了每種語言資料集的前 100 個樣本。更棒的是，它載入了音訊樣本，我們可以即時收聽。在本單元中，我們將選擇迪維希語（或馬爾地夫語），這是一種在南亞島國馬爾地夫使用的印歐語系語言。雖然我們為本教程選擇了迪維希語，但這裡介紹的步驟適用於 Common Voice 13 資料集中 108 種語言中的任何一種，更普遍適用於 Hugging Face Hub 上 180 多個音訊資料集中的任何一個，因此對語言或方言沒有限制。

我們可以透過下拉選單將子集設定為 `dv` 來選擇 Common Voice 13 的迪維希語子集（`dv` 是迪維希語的語言識別符號程式碼）

Selecting the Dhivehi split from the Dataset's Preview

如果我們點選第一個樣本上的播放按鈕，我們可以收聽音訊並檢視相應的文字。滾動檢視訓練集和測試集的樣本，以便更好地瞭解我們正在處理的音訊和文字資料。從語調和風格可以判斷，這些錄音取自敘述性語音。您可能還會注意到說話者和錄音質量的巨大差異，這是眾包資料的共同特徵。

資料集預覽是體驗音訊資料集的絕佳方式，無需事先提交。您可以在 Hub 上選擇任何資料集，滾動瀏覽樣本並收聽不同子集和分割的音訊，從而判斷它是否是適合您需求的資料集。一旦您選擇了資料集，載入資料就變得非常簡單，您可以立即開始使用它。

現在，我個人不會說迪維希語，並且預計絕大多數讀者也不會！為了知道我們微調後的模型是否好用，我們需要一種嚴格的方法來**評估**它在未見過的資料上的表現，並衡量其轉錄準確性。我們將在下一節中詳細介紹這一點！

< > 在 GitHub 上更新

音訊課程