處理音訊資料

本指南展示了處理音訊資料集的具體方法。瞭解如何

重新取樣取樣率。
將 map() 與音訊資料集一起使用。

有關如何處理任何型別資料集的指南，請參閱通用處理指南。

型別轉換

cast_column() 函式用於將列轉換為要解碼的另一個特徵。當您將此函式與 Audio 特徵一起使用時，您可以重新取樣取樣率

>>> from datasets import load_dataset, Audio

>>> dataset = load_dataset("PolyAI/minds14", "en-US", split="train")
>>> dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))

音訊檔案會即時解碼和重新取樣，因此下次您訪問示例時，音訊檔案會重新取樣為 16kHz

>>> audio = dataset[0]["audio"]
<datasets.features._torchcodec.AudioDecoder object at 0x11642b6a0>
>>> audio = audio_dataset[0]["audio"]
>>> samples = audio.get_all_samples()
>>> samples.data
tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3447e-06,
         -1.9127e-04, -5.3330e-05]]
>>> samples.sample_rate
16000

對映

map() 函式有助於一次性預處理您的整個資料集。根據您使用的模型型別，您需要載入一個特徵提取器或一個處理器。

對於預訓練的語音識別模型，載入一個特徵提取器和分詞器並將它們組合成一個 processor

>>> from transformers import AutoTokenizer, AutoFeatureExtractor, AutoProcessor

>>> model_checkpoint = "facebook/wav2vec2-large-xlsr-53"
# after defining a vocab.json file you can instantiate a tokenizer object:
>>> tokenizer = AutoTokenizer("./vocab.json", unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
>>> feature_extractor = AutoFeatureExtractor.from_pretrained(model_checkpoint)
>>> processor = AutoProcessor.from_pretrained(feature_extractor=feature_extractor, tokenizer=tokenizer)

對於微調的語音識別模型，您只需要載入一個 processor

>>> from transformers import AutoProcessor

>>> processor = AutoProcessor.from_pretrained("facebook/wav2vec2-base-960h")

當您將 map() 與您的預處理函式一起使用時，包含 audio 列以確保您實際重新取樣了音訊資料

>>> def prepare_dataset(batch):
...     audio = batch["audio"]
...     batch["input_values"] = processor(audio.get_all_samples().data, sampling_rate=audio["sampling_rate"]).input_values[0]
...     batch["input_length"] = len(batch["input_values"])
...     with processor.as_target_processor():
...         batch["labels"] = processor(batch["sentence"]).input_ids
...     return batch
>>> dataset = dataset.map(prepare_dataset, remove_columns=dataset.column_names)

< > 在 GitHub 上更新