音訊課程文件

檢查您對課程材料的理解

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

檢查您對課程材料的理解

1. 取樣率的測量單位是什麼?

2. 當流式傳輸大型音訊資料集時,您可以多快開始使用它?

3. 什麼是頻譜圖?

4. 將原始音訊資料轉換為 Whisper 期望的對數梅爾頻譜圖最簡單的方法是什麼?

A.

librosa.feature.melspectrogram(audio["array"])

B.

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")
feature_extractor(audio["array"])

C.

dataset.feature(audio["array"], model="whisper")

5. 如何從 🤗 Hub 載入資料集?

A.

from datasets import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

B.

import librosa

dataset = librosa.load(PATH_TO_DATASET)

C.

from transformers import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

6. 您的自定義資料集包含取樣率為 32 kHz 的高質量音訊。您希望訓練一個語音識別模型,該模型需要音訊示例的取樣率為 16 kHz。您應該怎麼做?

7. 如何將機器學習模型生成的頻譜圖轉換為波形?

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.