音訊頻譜圖 Transformer

概述

音訊頻譜圖 Transformer 模型由 Yuan Gong、Yu-An Chung、James Glass 在論文 AST: Audio Spectrogram Transformer 中提出。音訊頻譜圖 Transformer 將視覺 Transformer 應用於音訊，透過將音訊轉換為影像（頻譜圖）來實現。該模型在音訊分類任務上取得了目前最先進的結果。

論文摘要如下：

在過去十年中，卷積神經網路（CNNs）被廣泛用作端到端音訊分類模型的主要構建模組，旨在學習從音訊頻譜圖到相應標籤的直接對映。為了更好地捕捉長距離全域性上下文，最近的趨勢是在 CNN 之上新增自注意力機制，形成 CNN-注意力混合模型。然而，尚不清楚是否必須依賴 CNN，以及純粹基於注意力的神經網路是否足以在音訊分類中獲得良好效能。在本文中，我們透過引入音訊頻譜圖 Transformer（AST）來回答這個問題，這是第一個無卷積、純粹基於注意力的音訊分類模型。我們在各種音訊分類基準上評估了 AST，它在 AudioSet 上取得了 0.485 mAP 的新 SOTA 結果，在 ESC-50 上取得了 95.6% 的準確率，在 Speech Commands V2 上取得了 98.1% 的準確率。

音訊頻譜圖 Transformer 架構。摘自原始論文。

該模型由 nielsr 貢獻。原始程式碼可以在這裡找到。

使用技巧

在您自己的資料集上微調音訊頻譜圖 Transformer (AST) 時，建議注意輸入歸一化（確保輸入均值為 0，標準差為 0.5）。ASTFeatureExtractor 負責此操作。請注意，它預設使用 AudioSet 的均值和標準差。您可以檢視 ast/src/get_norm_stats.py 來了解作者如何為下游資料集計算統計資料。
請注意，AST 需要較低的學習率（作者使用的學習率比他們在 PSLA 論文中提出的 CNN 模型小 10 倍）並且收斂速度快，因此請為您的任務尋找合適的學習率和學習率排程器。

使用縮放點積注意力 (SDPA)

PyTorch 在 torch.nn.functional 中包含了原生的縮放點積注意力 (SDPA) 運算元。此函式包含多種實現，可根據輸入和所用硬體進行應用。更多資訊請參見官方文件或GPU 推理頁面。

當實現可用時，SDPA 預設用於 `torch>=2.1.1`，但你也可以在 `from_pretrained()` 中設定 `attn_implementation="sdpa"` 來明確請求使用 SDPA。

from transformers import ASTForAudioClassification
model = ASTForAudioClassification.from_pretrained("MIT/ast-finetuned-audioset-10-10-0.4593", attn_implementation="sdpa", torch_dtype=torch.float16)
...

為了獲得最佳加速效果，我們建議以半精度（例如 `torch.float16` 或 `torch.bfloat16`）載入模型。

在本地基準測試 (A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04) 中，使用 float32 和 MIT/ast-finetuned-audioset-10-10-0.4593 模型，我們在推理過程中觀察到以下速度提升。

批次大小	平均推理時間（毫秒），eager 模式	平均推理時間（毫秒），sdpa 模型	加速，Sdpa / Eager (x)
1	27	6	4.5
2	12	6	2
4	21	8	2.62
8	40	14	2.86

資源

Hugging Face 官方和社群（由 🌎 標誌）提供的資源列表，幫助您開始使用音訊頻譜圖 Transformer。

音訊分類

一個展示使用 AST 進行音訊分類推理的 notebook 可以在這裡找到。
ASTForAudioClassification 受此示例指令碼和notebook支援。
另請參閱：音訊分類。

如果您有興趣在此處提交資源，請隨時開啟 Pull Request，我們將對其進行審查！該資源最好能展示一些新內容，而不是重複現有資源。

ASTConfig

class transformers.ASTConfig

< source >

( hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 patch_size = 16 qkv_bias = True frequency_stride = 10 time_stride = 10 max_length = 1024 num_mel_bins = 128 **kwargs )

引數

hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
hidden_act (str or function, 可選, 預設為 "gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.0) — 嵌入層、編碼器和池化層中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.0) — 注意力機率的丟棄率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon 值。
patch_size (int, 可選, 預設為 16) — 每個 patch 的大小（解析度）。
qkv_bias (bool, 可選, 預設為 True) — 是否為查詢、鍵和值新增偏置。
frequency_stride (int, 可選, 預設為 10) — 對頻譜圖進行 patch 化時使用的頻率步長。
time_stride (int, 可選, 預設為 10) — 對頻譜圖進行 patch 化時使用的時間步長。
max_length (int, 可選, 預設為 1024) — 頻譜圖的時間維度。
num_mel_bins (int, 可選, 預設為 128) — 頻譜圖的頻率維度（梅爾頻率帶的數量）。

這是用於儲存 ASTModel 配置的配置類。它用於根據指定的引數例項化一個 AST 模型，定義模型架構。使用預設值例項化一個配置將產生與 AST MIT/ast-finetuned-audioset-10-10-0.4593 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。更多資訊請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import ASTConfig, ASTModel

>>> # Initializing a AST MIT/ast-finetuned-audioset-10-10-0.4593 style configuration
>>> configuration = ASTConfig()

>>> # Initializing a model (with random weights) from the MIT/ast-finetuned-audioset-10-10-0.4593 style configuration
>>> model = ASTModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

ASTFeatureExtractor

class transformers.ASTFeatureExtractor

< source >

( feature_size = 1 sampling_rate = 16000 num_mel_bins = 128 max_length = 1024 padding_value = 0.0 do_normalize = True mean = -4.2677393 std = 4.5689974 return_attention_mask = False **kwargs )

引數

feature_size (int, 可選, 預設為 1) — 提取特徵的特徵維度。
sampling_rate (int, 可選, 預設為 16000) — 音訊檔案數字化的取樣率，以赫茲 (Hz) 表示。
num_mel_bins (int, 可選, 預設為 128) — 梅爾頻率帶的數量。
max_length (int, 可選, 預設為 1024) — 用於對提取的特徵進行填充/截斷的最大長度。
do_normalize (bool, 可選, 預設為 True) — 是否使用 mean 和 std 對對數-梅爾特徵進行歸一化。
mean (float, 可選, 預設為 -4.2677393) — 用於歸一化對數-梅爾特徵的均值。預設使用 AudioSet 的均值。
std (float, 可選, 預設為 4.5689974) — 用於歸一化對數-梅爾特徵的標準差值。預設使用 AudioSet 的標準差。
return_attention_mask (bool, 可選, 預設為 False) — call() 是否應返回 attention_mask。

構建一個音訊頻譜圖 Transformer (AST) 特徵提取器。

該特徵提取器繼承自 SequenceFeatureExtractor，其中包含了大多數主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

如果安裝了 TorchAudio，此類將使用 TorchAudio 從原始語音中提取 mel-filter bank 特徵，否則使用 numpy。然後將它們填充/截斷到固定長度，並使用均值和標準差進行歸一化。

call

< source >

( raw_speech: typing.Union[numpy.ndarray, list[float], list[numpy.ndarray], list[list[float]]] sampling_rate: typing.Optional[int] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None **kwargs )

引數

raw_speech (np.ndarray, list[float], list[np.ndarray], list[list[float]]) — 要填充的序列或序列批次。每個序列可以是 numpy 陣列、浮點值列表、numpy 陣列列表或浮點值列表的列表。必須是單聲道音訊，而不是立體聲，即每個時間步只有一個浮點數。
sampling_rate (int, 可選) — raw_speech 輸入的取樣率。強烈建議在前向呼叫時傳遞 sampling_rate 以防止靜默錯誤。
return_tensors (str or TensorType, 可選) — 如果設定，將返回張量而不是 Python 整數列表。可接受的值有：
- 'tf'：返回 TensorFlow tf.constant 物件。
- 'pt'：返回 PyTorch torch.Tensor 物件。
- 'np'：返回 Numpy np.ndarray 物件。

對一個或多個序列進行特徵化併為模型準備的主方法。

ASTModel

class transformers.ASTModel

< source >

( config: ASTConfig )

引數

config (ASTConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，僅載入配置。請檢視 from_pretrained() 方法來載入模型權重。

基礎的音訊頻譜圖 Transformer 模型，輸出原始的隱藏狀態，沒有任何特定的頭部。

該模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< source >

( input_values: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

引數

input_values (形狀為 (batch_size, max_length, num_mel_bins) 的 torch.FloatTensor) — 從原始音訊波形中提取的浮點值梅爾特徵。原始音訊波形可以透過將 .flac 或 .wav 音訊檔案載入到 list[float] 或 numpy.ndarray 型別的陣列中獲得，例如透過 soundfile 庫（pip install soundfile）。為了將陣列準備成 input_features，應使用 AutoFeatureExtractor 來提取梅爾特徵、進行填充並轉換為 torch.FloatTensor 型別的張量。請參閱 call()
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組中選定的頭無效的掩碼。掩碼值的取值範圍為 [0, 1]：
- 1 表示該頭未被掩碼，
- 0 表示該頭已被掩碼。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor 的元組（如果傳入 return_dict=False 或 config.return_dict=False），包含根據配置（ASTConfig）和輸入而變化的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
pooler_output (torch.FloatTensor，形狀為 (batch_size, hidden_size)) — 序列中第一個詞元（分類詞元）的最後一層隱藏狀態，經過用於輔助預訓練任務的層進一步處理後的結果。例如，對於 BERT 族模型，這返回的是經過線性層和 tanh 啟用函式處理後的分類詞元。線性層的權重是在預訓練期間透過下一句預測（分類）目標進行訓練的。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則一個是嵌入層的輸出，另外每個層各有一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ASTModel 的 forward 方法，重寫了 __call__ 特殊方法。

儘管前向傳播的邏輯需要在此函式中定義，但之後應該呼叫 Module 例項而不是這個函式，因為前者會處理前後處理步驟，而後者會靜默地忽略它們。

ASTForAudioClassification

class transformers.ASTForAudioClassification

< 原始碼 >

( config: ASTConfig )

引數

config (ASTConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

音訊頻譜圖 Transformer 模型，頂部帶有一個音訊分類頭（在池化輸出之上加一個線性層），例如用於像 AudioSet、Speech Commands v2 這樣的資料集。

該模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 原始碼 >

( input_values: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_values (torch.FloatTensor，形狀為 (batch_size, max_length, num_mel_bins)) — 從原始音訊波形中提取的浮點值梅爾特徵。原始音訊波形可以透過將 .flac 或 .wav 音訊檔案載入到 list[float] 或 numpy.ndarray 型別的陣列中獲得，例如，透過 soundfile 庫（pip install soundfile）。為了將陣列準備成 input_features，應使用 AutoFeatureExtractor 來提取梅爾特徵、進行填充並轉換為 torch.FloatTensor 型別的張量。請參閱 call()
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組中選定的頭無效的掩碼。掩碼值的取值範圍為 [0, 1]：
- 1 表示該頭未被掩碼，
- 0 表示該頭已被掩碼。
labels (torch.LongTensor，形狀為 (batch_size,)，可選) — 用於計算音訊分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor 的元組（如果傳入 return_dict=False 或 config.return_dict=False），包含根據配置（ASTConfig）和輸入而變化的不同元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則一個是嵌入層的輸出，另外每個層各有一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

ASTForAudioClassification 的 forward 方法，重寫了 __call__ 特殊方法。

儘管前向傳播的邏輯需要在此函式中定義，但之後應該呼叫 Module 例項而不是這個函式，因為前者會處理前後處理步驟，而後者會靜默地忽略它們。

示例

>>> from transformers import AutoFeatureExtractor, ASTForAudioClassification
>>> from datasets import load_dataset
>>> import torch

>>> dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
>>> dataset = dataset.sort("id")
>>> sampling_rate = dataset.features["audio"].sampling_rate

>>> feature_extractor = AutoFeatureExtractor.from_pretrained("MIT/ast-finetuned-audioset-10-10-0.4593")
>>> model = ASTForAudioClassification.from_pretrained("MIT/ast-finetuned-audioset-10-10-0.4593")

>>> # audio file is decoded on the fly
>>> inputs = feature_extractor(dataset[0]["audio"]["array"], sampling_rate=sampling_rate, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.argmax(logits, dim=-1).item()
>>> predicted_label = model.config.id2label[predicted_class_ids]
>>> predicted_label
...

>>> # compute loss - target_label is e.g. "down"
>>> target_label = model.config.id2label[0]
>>> inputs["labels"] = torch.tensor([model.config.label2id[target_label]])
>>> loss = model(**inputs).loss
>>> round(loss.item(), 2)
...

< > 在 GitHub 上更新

Transformers

音訊頻譜圖 Transformer

概述

使用技巧

使用縮放點積注意力 (SDPA)

資源

ASTConfig

class transformers.ASTConfig

ASTFeatureExtractor

class transformers.ASTFeatureExtractor

__call__

ASTModel

class transformers.ASTModel

forward

ASTForAudioClassification

class transformers.ASTForAudioClassification

forward

call