Wav2Vec2

概述

Wav2Vec2 模型由 Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli 在 wav2vec 2.0: 一種自監督學習語音表示的框架中提出。

論文摘要如下：

我們首次證明，僅從語音音訊中學習強大的表示，然後對轉錄語音進行微調，可以超越最好的半監督方法，同時概念上更簡單。wav2vec 2.0 在潛在空間中遮蔽語音輸入，並解決基於聯合學習的潛在表示量化的對比任務。使用 Librispeech 所有標註資料的實驗在 clean/other 測試集上分別獲得了 1.8/3.3 WER。當將標註資料量降低到一小時時，wav2vec 2.0 在 100 小時子集上超越了之前最先進的方法，同時使用了 100 倍更少的標註資料。僅使用十分鐘標註資料並在 53k 小時未標註資料上進行預訓練，仍然可以實現 4.8/8.2 WER。這證明了在有限標註資料下進行語音識別的可行性。

此模型由 patrickvonplaten 貢獻。

注意：Meta (FAIR) 釋出了新版 Wav2Vec2-BERT 2.0 - 它在 4.5M 小時音訊資料上進行了預訓練。我們特別推薦將其用於微調任務，例如根據本指南。

使用技巧

Wav2Vec2 是一個語音模型，它接受一個浮點陣列，該陣列對應於語音訊號的原始波形。
Wav2Vec2 模型使用連線主義時間分類 (CTC) 進行訓練，因此模型輸出必須使用 Wav2Vec2CTCTokenizer 進行解碼。

[!NOTE] 當使用除“eager”之外的所有注意力實現時，`head_mask` 引數將被忽略。如果您有 `head_mask` 並希望其生效，請使用 `XXXModel.from_pretrained(model_id, attn_implementation="eager")` 載入模型。

使用 Flash Attention 2

Flash Attention 2 是一個更快、更最佳化的模型版本。

安裝

首先，檢查您的硬體是否與 Flash Attention 2 相容。相容硬體的最新列表可在官方文件中找到。如果您的硬體與 Flash Attention 2 不相容，您仍然可以透過上面介紹的 Better Transformer 支援，從注意力核最佳化中受益。

接下來，安裝最新版本的 Flash Attention 2

pip install -U flash-attn --no-build-isolation

用法

要使用 Flash Attention 2 載入模型，我們可以將引數 `attn_implementation="flash_attention_2"` 傳遞給 `。from_pretrained`。我們還將以半精度（例如 `torch.float16`）載入模型，因為這幾乎不會降低音訊質量，但能顯著降低記憶體使用並加快推理速度。

>>> from transformers import Wav2Vec2Model

model = Wav2Vec2Model.from_pretrained("facebook/wav2vec2-large-960h-lv60-self", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)
...

預期加速

以下是比較 `facebook/wav2vec2-large-960h-lv60-self` 模型在 Transformers 中的原生實現與 flash-attention-2 和 sdpa（標量點積注意力）版本之間純推理時間的預期加速圖。我們展示了在 `librispeech_asr` `clean` 驗證集上獲得的平均加速。

資源

一份官方 Hugging Face 和社群（用🌎表示）資源列表，幫助您開始使用 Wav2Vec2。如果您有興趣提交資源以供收錄在此處，請隨時開啟拉取請求，我們將對其進行審查！資源應理想地展示一些新內容，而不是重複現有資源。

音訊分類

自動語音識別

一篇關於在 🤗 Transformers 中使用 n-gram 提升 Wav2Vec2 的部落格文章。
一篇關於如何使用 🤗 Transformers 微調 Wav2Vec2 進行英語 ASR 的部落格文章。
一篇關於使用 🤗 Transformers 微調 XLS-R 進行多語言 ASR 的部落格文章。
一份關於如何透過 Wav2Vec2 轉錄音訊從任何影片建立 YouTube 字幕的筆記本。🌎
Wav2Vec2ForCTC 受到一份關於如何在英語中微調語音識別模型以及如何在任何語言中微調語音識別模型的筆記本的支援。
自動語音識別任務指南

🚀 部署

一篇關於如何使用 Hugging Face 的 Transformers 和 Amazon SageMaker 部署 Wav2Vec2 進行自動語音識別的部落格文章。

Wav2Vec2Config

class transformers.Wav2Vec2Config

< 來源 >

( vocab_size = 32 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout = 0.1 activation_dropout = 0.1 attention_dropout = 0.1 feat_proj_dropout = 0.0 feat_quantizer_dropout = 0.0 final_dropout = 0.1 layerdrop = 0.1 initializer_range = 0.02 layer_norm_eps = 1e-05 feat_extract_norm = 'group' feat_extract_activation = 'gelu' conv_dim = (512, 512, 512, 512, 512, 512, 512) conv_stride = (5, 2, 2, 2, 2, 2, 2) conv_kernel = (10, 3, 3, 3, 3, 2, 2) conv_bias = False num_conv_pos_embeddings = 128 num_conv_pos_embedding_groups = 16 do_stable_layer_norm = False apply_spec_augment = True mask_time_prob = 0.05 mask_time_length = 10 mask_time_min_masks = 2 mask_feature_prob = 0.0 mask_feature_length = 10 mask_feature_min_masks = 0 num_codevectors_per_group = 320 num_codevector_groups = 2 contrastive_logits_temperature = 0.1 num_negatives = 100 codevector_dim = 256 proj_codevector_dim = 256 diversity_loss_weight = 0.1 ctc_loss_reduction = 'sum' ctc_zero_infinity = False use_weighted_layer_sum = False classifier_proj_size = 256 tdnn_dim = (512, 512, 512, 512, 1500) tdnn_kernel = (5, 3, 3, 1, 1) tdnn_dilation = (1, 2, 3, 1, 1) xvector_output_dim = 512 pad_token_id = 0 bos_token_id = 1 eos_token_id = 2 add_adapter = False adapter_kernel_size = 3 adapter_stride = 2 num_adapter_layers = 3 output_hidden_size = None adapter_attn_dim = None **kwargs )

引數

vocab_size (int, 可選, 預設值為 32) — Wav2Vec2 模型的詞彙表大小。定義了呼叫 Wav2Vec2Model 或 TFWav2Vec2Model 時傳入的 `inputs_ids` 可以表示的不同 token 數量。模型的詞彙表大小。定義了可由傳入 Wav2Vec2Model 前向方法的 inputs_ids 表示的不同 token。
hidden_size (int, 可選, 預設值為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設值為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設值為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設值為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
hidden_act (str 或 function, 可選, 預設值為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu", "relu", "selu" 和 "gelu_new"。
hidden_dropout (float, 可選, 預設值為 0.1) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。
activation_dropout (float, 可選, 預設值為 0.1) — 全連線層內部啟用的 dropout 比例。
attention_dropout (float, 可選, 預設值為 0.1) — 注意力機率的 dropout 比例。
final_dropout (float, 可選, 預設值為 0.1) — Wav2Vec2ForCTC 最終投影層的 dropout 機率。
layerdrop (float, 可選, 預設值為 0.1) — LayerDrop 機率。更多詳情請參見 [LayerDrop 論文](參見 https://huggingface.co/papers/1909.11556)。
initializer_range (float, 可選, 預設值為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
layer_norm_eps (float, 可選, 預設值為 1e-12) — 層歸一化層使用的 epsilon 值。
feat_extract_norm (str, 可選, 預設值為 "group") — 應用於特徵編碼器中 1D 卷積層的歸一化型別。可以是 "group" (僅對第一個 1D 卷積層進行組歸一化) 或 "layer" (對所有 1D 卷積層進行層歸一化)。
feat_proj_dropout (float, 可選, 預設值為 0.0) — 特徵編碼器輸出的 dropout 機率。
feat_extract_activation (str, 可選, 預設值為 “gelu”) -- 特徵提取器中 1D 卷積層的非線性啟用函式（函式或字串）。如果是字串，支援 “gelu”, “relu”, “selu” 和 “gelu_new”`。
feat_quantizer_dropout (float, 可選, 預設值為 0.0) — 量化特徵編碼器狀態的 dropout 機率。
conv_dim (tuple[int] 或 list[int], 可選, 預設值為 (512, 512, 512, 512, 512, 512, 512)) — 一個整數元組，定義特徵編碼器中每個 1D 卷積層的輸入和輸出通道數。conv_dim 的長度定義了 1D 卷積層的數量。
conv_stride (tuple[int] 或 list[int], 可選, 預設值為 (5, 2, 2, 2, 2, 2, 2)) — 一個整數元組，定義特徵編碼器中每個 1D 卷積層的步長。conv_stride 的長度定義了卷積層的數量，並且必須與 conv_dim 的長度匹配。
conv_kernel (tuple[int] 或 list[int], 可選, 預設值為 (10, 3, 3, 3, 3, 3, 3)) — 一個整數元組，定義特徵編碼器中每個 1D 卷積層的核大小。conv_kernel 的長度定義了卷積層的數量，並且必須與 conv_dim 的長度匹配。
conv_bias (bool, 可選, 預設值為 False) — 1D 卷積層是否帶有偏置。
num_conv_pos_embeddings (int, 可選, 預設值為 128) — 卷積位置嵌入的數量。定義了 1D 卷積位置嵌入層的核大小。
num_conv_pos_embedding_groups (int, 可選, 預設值為 16) — 1D 卷積位置嵌入層的組數。
do_stable_layer_norm (bool, 可選, 預設值為 False) — 是否應用 Transformer 編碼器的 stable 層歸一化架構。do_stable_layer_norm is True 對應於在注意力層之前應用層歸一化，而 do_stable_layer_norm is False 對應於在注意力層之後應用層歸一化。
apply_spec_augment (bool, 可選, 預設值為 True) — 是否將 SpecAugment 資料增強應用於特徵編碼器的輸出。參考 SpecAugment: 一種簡單的自動語音識別資料增強方法。
mask_time_prob (float, 可選, 預設值為 0.05) — 將被遮蔽的沿時間軸的所有特徵向量的百分比（介於 0 和 1 之間）。遮蔽過程會在該軸上生成 “mask_time_problen(time_axis)/mask_time_length” 個獨立的遮蔽。如果根據每個特徵向量被選為要遮蔽的向量範圍起始點的機率來推斷，則 mask_time_prob 應為 `prob_vector_startmask_time_length。請注意，重疊可能會降低實際被遮蔽向量的百分比。這僅在 apply_spec_augment 為 True` 時相關。
mask_time_length (int, 可選, 預設值為 10) — 沿時間軸的向量範圍長度。
mask_time_min_masks (int, 可選, 預設值為 2) — 沿時間軸生成的長度為 mask_feature_length 的最小遮罩數量，每個時間步都如此，無論 mask_feature_prob 的值如何。僅在 ”mask_time_prob*len(time_axis)/mask_time_length < mask_time_min_masks” 時相關。
mask_feature_prob (float, 可選, 預設值為 0.0) — 將被遮蔽的沿特徵軸的所有特徵向量的百分比（介於 0 和 1 之間）。遮蔽過程會在該軸上生成 “mask_feature_problen(feature_axis)/mask_time_length” 個獨立的遮蔽。如果根據每個特徵向量被選為要遮蔽的向量範圍起始點的機率來推斷，則 mask_feature_prob 應為 `prob_vector_startmask_feature_length。請注意，重疊可能會降低實際被遮蔽向量的百分比。這僅在 apply_spec_augment 為 True` 時相關。
mask_feature_length (int, 可選, 預設值為 10) — 沿特徵軸的向量範圍長度。
mask_feature_min_masks (int, 可選, 預設值為 0) — 沿特徵軸生成的長度為 mask_feature_length 的最小遮罩數量，每個時間步都如此，無論 mask_feature_prob 的值如何。僅在 ”mask_feature_prob*len(feature_axis)/mask_feature_length < mask_feature_min_masks” 時相關。
num_codevectors_per_group (int, 可選, 預設值為 320) — 每個量化碼本（組）中的條目數量。
num_codevector_groups (int, 可選, 預設值為 2) — 積碼本量化的碼向量組數量。
contrastive_logits_temperature (float, 可選, 預設值為 0.1) — 對比損失中的溫度 kappa。
feat_quantizer_dropout (float, optional, defaults to 0.0) — 特徵編碼器輸出用於量化器的 dropout 機率。
num_negatives (int, optional, defaults to 100) — 對比損失的負樣本數量。
codevector_dim (int, optional, defaults to 256) — 量化特徵向量的維度。
proj_codevector_dim (int, optional, defaults to 256) — 量化特徵和變換器特徵的最終投影維度。
diversity_loss_weight (int, optional, defaults to 0.1) — 碼本多樣性損失分量的權重。
ctc_loss_reduction (str, optional, defaults to "sum") — 指定應用於 torch.nn.CTCLoss 輸出的 reduction。僅在訓練 Wav2Vec2ForCTC 例項時相關。
ctc_zero_infinity (bool, optional, defaults to False) — 是否將 torch.nn.CTCLoss 的無限損失和相關梯度置零。無限損失主要發生在輸入太短而無法與目標對齊時。僅在訓練 Wav2Vec2ForCTC 例項時相關。
use_weighted_layer_sum (bool, optional, defaults to False) — 是否使用學習權重對層輸出進行加權平均。僅在使用 Wav2Vec2ForSequenceClassification 例項時相關。
classifier_proj_size (int, optional, defaults to 256) — 分類前進行 token 均值池化的投影維度。
tdnn_dim (tuple[int] 或 list[int], optional, defaults to (512, 512, 512, 512, 1500)) — 定義 *XVector* 模型 *TDNN* 模組中每個 1D 卷積層的輸出通道數的整數元組。*tdnn_dim* 的長度定義了 *TDNN* 層的數量。
tdnn_kernel (tuple[int] 或 list[int], optional, defaults to (5, 3, 3, 1, 1)) — 定義 *XVector* 模型 *TDNN* 模組中每個 1D 卷積層的核大小的整數元組。*tdnn_kernel* 的長度必須與 *tdnn_dim* 的長度匹配。
tdnn_dilation (tuple[int] 或 list[int], optional, defaults to (1, 2, 3, 1, 1)) — 定義 *XVector* 模型 *TDNN* 模組中每個 1D 卷積層的膨脹係數的整數元組。*tdnn_dilation* 的長度必須與 *tdnn_dim* 的長度匹配。
xvector_output_dim (int, optional, defaults to 512) — *XVector* 嵌入向量的維度。
add_adapter (bool, optional, defaults to False) — 是否在 Wav2Vec2 編碼器之上堆疊卷積網路。對於 SpeechEncoderDecoder 模型的熱啟動 Wav2Vec2 非常有用。
adapter_kernel_size (int, optional, defaults to 3) — 介面卡網路中卷積層的核大小。僅當 add_adapter 為 True 時相關。
adapter_stride (int, optional, defaults to 2) — 介面卡網路中卷積層的步長。僅當 add_adapter 為 True 時相關。
num_adapter_layers (int, optional, defaults to 3) — 介面卡網路中應使用的卷積層數量。僅當 add_adapter 為 True 時相關。
adapter_attn_dim (int, optional) — 在每個注意力塊中使用的注意力介面卡權重的維度。使用注意力介面卡的模型示例是 facebook/mms-1b-all。
output_hidden_size (int, optional) — 編碼器輸出層的維度。如果未定義，則預設為 *hidden-size*。僅當 add_adapter 為 True 時相關。

這是用於儲存 Wav2Vec2Model 配置的配置類。它用於根據指定的引數例項化 Wav2Vec2 模型，定義模型架構。使用預設值例項化配置將產生與 Wav2Vec2 facebook/wav2vec2-base-960h 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關此類方法的更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import Wav2Vec2Config, Wav2Vec2Model

>>> # Initializing a Wav2Vec2 facebook/wav2vec2-base-960h style configuration
>>> configuration = Wav2Vec2Config()

>>> # Initializing a model (with random weights) from the facebook/wav2vec2-base-960h style configuration
>>> model = Wav2Vec2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

Wav2Vec2

概述

使用技巧

使用 Flash Attention 2

安裝

用法

預期加速

資源

Wav2Vec2Config

class transformers.Wav2Vec2Config

Wav2Vec2CTCTokenizer

class transformers.Wav2Vec2CTCTokenizer

__call__

save_vocabulary

decode

batch_decode

set_target_lang

Wav2Vec2FeatureExtractor

class transformers.Wav2Vec2FeatureExtractor

__call__

Wav2Vec2Processor

class transformers.Wav2Vec2Processor

__call__

pad

from_pretrained

save_pretrained

batch_decode

decode

Wav2Vec2ProcessorWithLM

class transformers.Wav2Vec2ProcessorWithLM

__call__

pad

from_pretrained

save_pretrained

batch_decode

decode

解碼多個音訊

Wav2Vec2 特定的輸出

class transformers.models.wav2vec2_with_lm.processing_wav2vec2_with_lm.Wav2Vec2DecoderWithLMOutput

class transformers.modeling_outputs.Wav2Vec2BaseModelOutput

class transformers.models.wav2vec2.modeling_wav2vec2.Wav2Vec2ForPreTrainingOutput

class transformers.models.wav2vec2.modeling_flax_wav2vec2.FlaxWav2Vec2BaseModelOutput

替換

class transformers.models.wav2vec2.modeling_flax_wav2vec2.FlaxWav2Vec2ForPreTrainingOutput

替換

Wav2Vec2Model

class transformers.Wav2Vec2Model

forward

Wav2Vec2ForCTC

class transformers.Wav2Vec2ForCTC

forward

load_adapter

Wav2Vec2ForSequenceClassification

class transformers.Wav2Vec2ForSequenceClassification

forward

Wav2Vec2ForAudioFrameClassification

class transformers.Wav2Vec2ForAudioFrameClassification

forward

Wav2Vec2ForXVector

class transformers.Wav2Vec2ForXVector

forward

Wav2Vec2ForPreTraining

class transformers.Wav2Vec2ForPreTraining

forward

TFWav2Vec2Model

class transformers.TFWav2Vec2Model

呼叫

TFWav2Vec2ForSequenceClassification

class transformers.TFWav2Vec2ForSequenceClassification

呼叫

TFWav2Vec2ForCTC

class transformers.TFWav2Vec2ForCTC

呼叫

FlaxWav2Vec2Model

class transformers.FlaxWav2Vec2Model

__call__

FlaxWav2Vec2ForCTC

class transformers.FlaxWav2Vec2ForCTC

__call__

call

call

call

call

call

call

call