音訊課程文件

選擇資料集

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

選擇資料集

與任何機器學習問題一樣,我們的模型的好壞取決於我們用來訓練它的資料。語音識別資料集在策展方式和涵蓋領域方面差異很大。為了選擇正確的資料集,我們需要將我們的標準與資料集提供的功能相匹配。

在選擇資料集之前,我們首先需要了解其關鍵的定義特徵。

語音資料集的特徵

1. 時長

簡單來說,訓練時長表示資料集的大小。這類似於 NLP 資料集中訓練示例的數量。然而,更大的資料集不一定更好。如果我們想要一個泛化能力強的模型,我們希望有一個包含大量不同說話者、領域和說話風格的**多樣化**資料集。

2. 領域

領域是指資料來源於何處,無論是有聲讀物、播客、YouTube 還是金融會議。每個領域都有不同的資料分佈。例如,有聲讀物是在高質量錄音棚條件下錄製的(沒有背景噪音),文字取自書面文學。而 YouTube 的音訊可能包含更多背景噪音和更非正式的說話風格。

我們需要將我們的領域與我們在推理時預期的條件相匹配。例如,如果我們在有聲讀物上訓練模型,我們不能指望它在嘈雜的環境中表現良好。

3. 說話風格

說話風格分為以下兩類:

  • 敘述型:根據稿件朗讀
  • 即興型:無稿、口語化表達

音訊和文字資料反映了說話的風格。由於敘述文字是根據稿件朗讀的,因此往往發音清晰且沒有錯誤。

“Consider the task of training a model on a speech recognition dataset

而對於即興型語音,我們可以預期更口語化的說話風格,其中包含重複、猶豫和假開始。

Let’s uhh let's take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”

4. 轉錄風格

轉錄風格指的是目標文字是否包含標點符號、大小寫或兩者兼有。如果我們希望系統生成可用於出版物或會議轉錄的完全格式化文字,我們需要包含標點符號和大小寫的訓練資料。如果我們只需要未格式化的口語詞語,則標點符號和大小寫都不是必需的。在這種情況下,我們可以選擇不帶標點符號或大小寫的資料集,或者選擇一個帶標點符號和大小寫的資料集,然後透過預處理將其從目標文字中刪除。

Hub 上的資料集概述

以下是 Hugging Face Hub 上最受歡迎的英語語音識別資料集的概述

資料集 訓練時長 領域 說話風格 大小寫 標點符號 許可證 推薦用途
LibriSpeech 960 有聲讀物 敘述型 CC-BY-4.0 學術基準
Common Voice 11 3000 維基百科 敘述型 CC0-1.0 非母語者
VoxPopuli 540 歐洲議會 演說型 CC0 非母語者
TED-LIUM 450 TED 演講 演說型 CC-BY-NC-ND 3.0 技術主題
GigaSpeech 10000 有聲讀物、播客、YouTube 敘述型、即興型 apache-2.0 多領域魯棒性
SPGISpeech 5000 金融會議 演說型、即興型 使用者協議 完整格式的轉錄
Earnings-22 119 金融會議 演說型、即興型 CC-BY-SA-4.0 口音多樣性
AMI 100 會議 即興型 CC-BY-4.0 嘈雜語音條件

此表作為根據您的標準選擇資料集的參考。下面是多語言語音識別的等效表格。請注意,我們省略了訓練時長列,因為這因每個資料集的語言而異,並將其替換為每個資料集的語言數量

資料集 語言 領域 說話風格 大小寫 標點符號 許可證 推薦用途
多語言 LibriSpeech 6 有聲讀物 敘述型 CC-BY-4.0 學術基準
Common Voice 13 108 維基百科文字和眾包語音 敘述型 CC0-1.0 多樣化的說話者集
VoxPopuli 15 歐洲議會錄音 即興型 CC0 歐洲語言
FLEURS 101 歐洲議會錄音 即興型 CC-BY-4.0 多語言評估

有關這兩個表格中涵蓋的音訊資料集的詳細分類,請參閱部落格文章 音訊資料集完整指南。雖然 Hub 上有超過 180 個語音識別資料集,但可能沒有一個數據集能滿足您的需求。在這種情況下,也可以使用您自己的音訊資料與 🤗 Datasets。要建立自定義音訊資料集,請參閱指南 建立音訊資料集。在建立自定義音訊資料集時,請考慮在 Hub 上共享最終資料集,以便社群中的其他人可以從您的努力中受益——音訊社群是包容和廣泛的,其他人會像您欣賞他們的工作一樣欣賞您的工作。

好的!現在我們已經瞭解了選擇 ASR 資料集的所有標準,讓我們為本教程選擇一個。我們知道 Whisper 在轉錄高資源語言(如英語和西班牙語)的資料方面已經做得相當不錯,所以我們將專注於低資源多語言轉錄。我們希望保留 Whisper 預測標點和大小寫的能力,所以從第二個表格來看,Common Voice 13 是一個很好的候選資料集!

Common Voice 13

Common Voice 13 是一個眾包資料集,說話者用各種語言錄製維基百科文字。它是 Common Voice 系列的一部分,由 Mozilla 基金會發布。在撰寫本文時,Common Voice 13 是該資料集的最新版本,擁有迄今為止所有版本中最多的語言和每種語言的時長。

我們可以透過檢視 Hub 上的資料集頁面獲取 Common Voice 13 資料集的完整語言列表:mozilla-foundation/common_voice_13_0。首次檢視此頁面時,系統會要求您接受使用條款。之後,您將獲得資料集的完全訪問許可權。

一旦我們提供了使用資料集的身份驗證,就會顯示資料集預覽。資料集預覽向我們展示了每種語言資料集的前 100 個樣本。更棒的是,它載入了音訊樣本,我們可以即時收聽。在本單元中,我們將選擇迪維希語(或馬爾地夫語),這是一種在南亞島國馬爾地夫使用的印歐語系語言。雖然我們為本教程選擇了迪維希語,但這裡介紹的步驟適用於 Common Voice 13 資料集中 108 種語言中的任何一種,更普遍適用於 Hugging Face Hub 上 180 多個音訊資料集中的任何一個,因此對語言或方言沒有限制。

我們可以透過下拉選單將子集設定為 `dv` 來選擇 Common Voice 13 的迪維希語子集(`dv` 是迪維希語的語言識別符號程式碼)

Selecting the Dhivehi split from the Dataset's Preview

如果我們點選第一個樣本上的播放按鈕,我們可以收聽音訊並檢視相應的文字。滾動檢視訓練集和測試集的樣本,以便更好地瞭解我們正在處理的音訊和文字資料。從語調和風格可以判斷,這些錄音取自敘述性語音。您可能還會注意到說話者和錄音質量的巨大差異,這是眾包資料的共同特徵。

資料集預覽是體驗音訊資料集的絕佳方式,無需事先提交。您可以在 Hub 上選擇任何資料集,滾動瀏覽樣本並收聽不同子集和分割的音訊,從而判斷它是否是適合您需求的資料集。一旦您選擇了資料集,載入資料就變得非常簡單,您可以立即開始使用它。

現在,我個人不會說迪維希語,並且預計絕大多數讀者也不會!為了知道我們微調後的模型是否好用,我們需要一種嚴格的方法來**評估**它在未見過的資料上的表現,並衡量其轉錄準確性。我們將在下一節中詳細介紹這一點!

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.