Whisper

Whisper 是一個在 68 萬小時帶標籤的音訊資料上預訓練的編碼器-解碼器 (sequence-to-sequence) transformer 模型。如此大量的預訓練資料使其能夠在英語和許多其他語言的音訊任務上實現零樣本效能。解碼器允許 Whisper 將編碼器學習到的語音表示對映到有用的輸出，例如文字，而無需額外的微調。Whisper 可以開箱即用。

你可以在 Whisper 合集中找到所有原始的 Whisper checkpoints。

[!NOTE] 當使用除“eager”之外的所有注意力實現時，`head_mask` 引數會被忽略。如果你有 `head_mask` 並希望它生效，請使用 `XXXModel.from_pretrained(model_id, attn_implementation="eager")` 載入模型。

點選右側邊欄中的 Whisper 模型，檢視更多關於如何將 Whisper 應用於不同音訊任務的示例。

下面的示例演示瞭如何使用 Pipeline 或 AutoModel 類將語音自動轉錄為文字。

流水線

自動模型

注意

Whisper 依賴一個自定義的 `generate` 方法進行推理，請務必檢視下面的文件。
WhisperProcessor 可用於準備音訊資料並將預測的 ID 解碼迴文本。

WhisperConfig

class transformers.WhisperConfig

< 源 >

( vocab_size = 51865 num_mel_bins = 80 encoder_layers = 4 encoder_attention_heads = 6 decoder_layers = 4 decoder_attention_heads = 6 decoder_ffn_dim = 1536 encoder_ffn_dim = 1536 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 decoder_start_token_id = 50257 use_cache = True is_encoder_decoder = True activation_function = 'gelu' d_model = 384 dropout = 0.0 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 scale_embedding = False max_source_positions = 1500 max_target_positions = 448 pad_token_id = 50256 bos_token_id = 50256 eos_token_id = 50256 suppress_tokens = None begin_suppress_tokens = [220, 50256] use_weighted_layer_sum = False classifier_proj_size = 256 apply_spec_augment = False mask_time_prob = 0.05 mask_time_length = 10 mask_time_min_masks = 2 mask_feature_prob = 0.0 mask_feature_length = 10 mask_feature_min_masks = 0 median_filter_width = 7 **kwargs )

引數

vocab_size (int, 可選, 預設為 51865) — Whisper 模型的詞彙表大小。定義了在呼叫 WhisperModel 時傳遞的 `decoder_input_ids` 可以表示的不同 token 的數量。
num_mel_bins (int, 可選, 預設為 80) — 每個輸入特徵使用的梅爾特徵數。應與 `WhisperProcessor` 類中使用的值相對應。
encoder_layers (int, 可選, 預設為 4) — 編碼器層數。
decoder_layers (int, 可選, 預設為 4) — 解碼器層數。
encoder_attention_heads (int, 可選, 預設為 6) — Transformer 編碼器中每個注意力層的注意力頭數量。
decoder_attention_heads (int, 可選, 預設為 6) — Transformer 解碼器中每個注意力層的注意力頭數量。
encoder_ffn_dim (int, 可選, 預設為 1536) — 編碼器中“中間”（通常稱為前饋）層的維度。
decoder_ffn_dim (int, 可選, 預設為 1536) — 解碼器中“中間”（通常稱為前饋）層的維度。
encoder_layerdrop (float, 可選, 預設為 0.0) — 編碼器的 LayerDrop 機率。更多細節請參見 LayerDrop 論文。
decoder_layerdrop (float, 可選, 預設為 0.0) — 解碼器的 LayerDrop 機率。更多細節請參見 LayerDrop 論文。
decoder_start_token_id (int, 可選, 預設為 50257) — 對應於“<|startoftranscript|>” token，當沒有向 `generate` 函式提供 `decoder_input_ids` 時會自動使用。它用於根據任務指導模型的生成過程。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。
is_encoder_decoder (bool, 可選, 預設為 True) — 模型是否用作編碼器/解碼器。
activation_function (str, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"silu" 和 "gelu_new"。
d_model (int, 可選, 預設為 384) — 層的維度。
dropout (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化器中所有全連線層的 dropout 機率。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比例。
activation_dropout (float, 可選, 預設為 0.0) — 全連線層內部啟用的 dropout 比例。
init_std (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
scale_embedding (bool, 可選, 預設為 False) — 是否透過除以 sqrt(d_model) 來縮放嵌入。
max_source_positions (int, 可選, 預設為 1500) — 此模型可能使用的對數-梅爾濾波器組特徵的最大序列長度。
max_target_positions (int, 可選, 預設為 448) — 此模型可能使用的最大序列長度。通常將其設定為一個較大的值以備不時之需（例如，512、1024 或 2048）。
pad_token_id (int, 可選, 預設為 50256) — 填充 token 的 ID。
bos_token_id (int, 可選, 預設為 50256) — 流開始 token 的 ID。
eos_token_id (int, 可選, 預設為 50256) — 流結束 token 的 ID。
suppress_tokens (list[int], 可選) — 包含將在 `generate` 函式中由 logit 處理器使用的非語音 token 的列表。NON_SPEECH_TOKENS 和 NON_SPEECH_TOKENS_MULTI 分別對應於`僅英語`模型和`多語言`模型。
begin_suppress_tokens (list[int], 可選, 預設為 `[220,50256]`) — 包含將在取樣過程開始時被抑制的 token 的列表。初始化為 `" "` (blank_token_id) 和 eos_token_id 的 token。
use_weighted_layer_sum (bool, 可選, 預設為 False) — 是否使用帶有學習權重的層輸出的加權平均值。僅在使用 WhisperForAudioClassification 例項時相關。
classifier_proj_size (int, 可選, 預設為 256) — 用於分類的 token 均值池化之前的投影維度。僅在使用 WhisperForAudioClassification 例項時相關。
apply_spec_augment (bool, 可選, 預設為 False) — 是否對特徵編碼器的輸出應用 SpecAugment 資料增強。參考請見 SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition。
mask_time_prob (float, 可選, 預設為 0.05) — 沿時間軸的所有特徵向量中將被遮蔽的百分比（介於 0 和 1 之間）。遮蔽過程會生成 `mask_time_prob*len(time_axis)/mask_time_length` 個獨立的遮罩。如果從每個特徵向量被選為要遮蔽的向量跨度起點的機率來推理，則 *mask_time_prob* 應為 `prob_vector_start*mask_time_length`。請注意，重疊可能會減少實際被遮蔽向量的百分比。僅當 `apply_spec_augment == True` 時此引數才相關。
mask_time_length (int, 可選, 預設為 10) — 沿時間軸的向量跨度長度。
mask_time_min_masks (int, 可選, 預設為 2)， — 沿時間軸生成的長度為 `mask_feature_length` 的遮罩的最小數量，每個時間步都生成，與 `mask_feature_prob` 無關。僅當 ”mask_time_prob*len(time_axis)/mask_time_length < mask_time_min_masks” 時相關。
mask_feature_prob (float, 可選, 預設為 0.0) — 沿特徵軸的所有特徵向量中將被遮蔽的百分比（介於 0 和 1 之間）。遮蔽過程會生成 `mask_feature_prob*len(feature_axis)/mask_time_length` 個獨立的遮罩。如果從每個特徵向量被選為要遮蔽的向量跨度起點的機率來推理，則 *mask_feature_prob* 應為 `prob_vector_start*mask_feature_length`。請注意，重疊可能會減少實際被遮蔽向量的百分比。僅當 `apply_spec_augment 為 True` 時此引數才相關。
mask_feature_length (int, 可選, 預設為 10) — 沿特徵軸的向量跨度長度。
mask_feature_min_masks (int, 可選, 預設為 0)， — 沿特徵軸生成的長度為 `mask_feature_length` 的遮罩的最小數量，每個時間步都生成，與 `mask_feature_prob` 無關。僅當 `mask_feature_prob*len(feature_axis)/mask_feature_length < mask_feature_min_masks` 時相關。
median_filter_width (int, 可選, 預設為 7) — 用於平滑交叉注意力輸出以計算 token 時間戳的中值濾波器的寬度。應為奇數。

這是用於儲存 WhisperModel 配置的配置類。它用於根據指定的引數例項化一個 Whisper 模型，定義模型架構。使用預設值例項化配置將產生與 Whisper openai/whisper-tiny 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import WhisperConfig, WhisperModel

>>> # Initializing a Whisper tiny style configuration
>>> configuration = WhisperConfig()

>>> # Initializing a model (with random weights) from the tiny style configuration
>>> model = WhisperModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

WhisperTokenizer

class transformers.WhisperTokenizer

< 原始碼 >

引數

vocab_file (str) — 詞彙表文件的路徑。
merges_file (str) — 合併檔案的路徑。
normalizer_file (str, 可選) — normalizer_file 檔案的路徑。
errors (str, 可選, 預設為 "replace") — 將位元組解碼為 UTF-8 時遵循的正規化。有關更多資訊，請參閱 bytes.decode。
unk_token (str, 可選, 預設為 "<|endoftext|>") — 未知詞元。不在詞彙表中的詞元無法轉換為 ID，將被設定為此詞元。
bos_token (str, 可選, 預設為 "<|endoftext|>") — 序列開始詞元。生成時，decoder_start_token_id 用於將第一個詞元設定為 "<|startoftranscript|>"。
eos_token (str, 可選, 預設為 "<|endoftext|>") — 序列結束詞元。
pad_token (str, 可選) — 用於填充的詞元，例如當批處理不同長度的序列時。
add_prefix_space (bool, 可選, 預設為 False) — 是否在輸入前新增一個初始空格。這使得開頭的單詞可以像其他任何單詞一樣被處理。
language (str, 可選) — 轉錄文字的語言。對於多語言語音識別和語音翻譯任務，相應的語言 ID 詞元會附加到序列的開頭，例如對於西班牙語，詞元 "<|es|>" 會被附加到序列開頭。這應該僅用於多語言微調。
task (str, 可選) — 附加在序列開頭的任務識別符號（如果有）。這應該用於多語言微調，其中 "transcribe" 用於語音識別，"translate" 用於語音翻譯。
predict_timestamps (bool, 可選, 預設為 False) — 是否在序列開頭省略 <|notimestamps|> 詞元。

構建一個 Whisper 分詞器。

此分詞器繼承自 PreTrainedTokenizer，其中包含一些主要方法。使用者應參考超類以獲取有關這些方法的更多資訊。

set_prefix_tokens

< 原始碼 >

( language: typing.Optional[str] = None task: typing.Optional[str] = None predict_timestamps: typing.Optional[bool] = None )

引數

language (str, 可選, 預設為 None) — 轉錄文字的語言。
task (str, 可選, 預設為 None) — 附加在序列開頭的任務識別符號（如果有）。
predict_timestamps (bool, 可選, 預設為 None) — 是否在序列開頭省略 <|notimestamps|> 詞元。

覆蓋附加在標籤序列開頭的字首詞元。該方法可以單獨使用以

在微調時根據需要更新字首詞元。示例：

>>> # instantiate the tokenizer and set the prefix token to Spanish
>>> tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-tiny", language="spanish")
>>> # now switch the prefix token from Spanish to French
>>> tokenizer.set_prefix_tokens(language="french")

build_inputs_with_special_tokens

< 原始碼 >

( token_ids_0 token_ids_1 = None )

透過追加 eos_token_id 從序列構建模型輸入。

get_special_tokens_mask

< 原始碼 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → list[int]

引數

token_ids_0 (list[int]) — ID 列表。
token_ids_1 (list[int], 可選) — 用於序列對的可選的第二組 ID 列表。
already_has_special_tokens (bool, 可選, 預設為 False) — 詞元列表是否已經用模型的特殊詞元格式化。

list[int]

一個範圍為 [0, 1] 的整數列表：1 表示特殊標記，0 表示序列標記。

從沒有新增特殊標記的標記列表中檢索序列ID。此方法在使用分詞器prepare_for_model方法新增特殊標記時呼叫。

create_token_type_ids_from_sequences

< 原始碼 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 第一個分詞後的序列。
token_ids_1 (list[int], 可選) — 第二個分詞後的序列。

list[int]

標記型別 ID。

建立與傳入序列對應的標記型別 ID。什麼是標記型別 ID？

如果模型有特殊的構建方式，應在子類中重寫此方法。

save_vocabulary

< 原始碼 >

( save_directory: str filename_prefix: typing.Optional[str] = None )

batch_decode

< 原始碼 >

( sequences: typing.Union[list[int], list[list[int]], ForwardRef('np.ndarray'), ForwardRef('torch.Tensor'), ForwardRef('tf.Tensor')] skip_special_tokens: bool = False clean_up_tokenization_spaces: typing.Optional[bool] = None **kwargs ) → list[str]

引數

sequences (Union[list[int], list[list[int]], np.ndarray, torch.Tensor, tf.Tensor]) — 分詞後輸入 ID 的列表。可以使用 __call__ 方法獲得。
skip_special_tokens (bool, 可選, 預設為 False) — 是否在解碼時移除特殊詞元。
clean_up_tokenization_spaces (bool, 可選) — 是否清理分詞產生的空格。如果為 None，則預設為 self.clean_up_tokenization_spaces。
kwargs (附加關鍵字引數, 可選) — 將傳遞給底層特定模型的解碼方法。

list[str]

解碼後的句子列表。

透過呼叫 decode 將標記 ID 列表的列表轉換為字串列表。

decode

< 原始碼 >

( token_ids skip_special_tokens: bool = False clean_up_tokenization_spaces: typing.Optional[bool] = None output_offsets: bool = False time_precision: float = 0.02 decode_with_timestamps: bool = False normalize: bool = False basic_normalize: bool = False remove_diacritics: bool = False **kwargs ) → str

引數

token_ids (Union[int, list[int], np.ndarray, torch.Tensor, tf.Tensor]) — 分詞後輸入 ID 的列表。可以使用 __call__ 方法獲得。
skip_special_tokens (bool, 可選, 預設為 False) — 是否在解碼時移除特殊詞元。如果存在，將移除之前的詞元（前置提示）。
clean_up_tokenization_spaces (bool, 可選) — 是否清理分詞產生的空格。如果為 None，則預設為 self.clean_up_tokenization_spaces (在 tokenizer_config 中可用)。
output_offsets (bool, 可選, 預設為 False) — 是否輸出詞元的偏移量。只有當模型預測了時間戳時才應設定此項。如果存在之前的詞元（前置提示）需要解碼，它們只有在包含時間戳詞元時才會出現在解碼文字中。
time_precision (float, 可選, 預設為 0.02) — 用於將詞元轉換為時間的時間比例。
decode_with_timestamps (bool, 可選, 預設為 False) — 是否在原始文字中包含時間戳進行解碼。
normalize (bool, 可選, 預設為 False) — 是否對解碼後的文字應用英文文字規範化器。僅適用於目標文字為英文的情況。否則，應使用基本文字規範化器。
basic_normalize (bool, 可選, 預設為 False) — 是否對解碼後的文字應用基本文字規範化器。適用於多語言目標文字。
remove_diacritics (bool, 可選, 預設為 False) — 應用基本文字規範化器時是否移除變音符號。移除變音符號可能會破壞解碼文字中的資訊，因此應謹慎使用。
kwargs (附加關鍵字引數, 可選) — 將傳遞給底層特定模型的解碼方法。

字串

解碼後的句子。

使用分詞器和詞彙表將 ID 序列轉換為字串，可以選擇移除特殊標記並清理分詞空間。

類似於執行 self.convert_tokens_to_string(self.convert_ids_to_tokens(token_ids))。

basic_normalize

< 原始碼 >

( text remove_diacritics = False )

使用 `BasicTextNormalizer` 類對給定字串進行規範化，該類對多語言文字執行常見轉換。

歸一化

< 原始碼 >

( text )

使用 `EnglishTextNormalizer` 類對給定字串進行規範化，該類對英文文字執行常見轉換。

WhisperTokenizerFast

class transformers.WhisperTokenizerFast

< 原始碼 >

引數

vocab_file (str, 可選) — 詞彙表文件的路徑。
merges_file (str, 可選) — 合併檔案的路徑。
normalizer_file (str, 可選) — normalizer_file 檔案的路徑。
tokenizer_file (str, 可選) — tokenizers 檔案的路徑（通常具有 .json 副檔名），其中包含載入分詞器所需的所有內容。
unk_token (str, 可選, 預設為 "<|endoftext|>") — 未知詞元（token）。詞彙表中不存在的詞元無法轉換為 ID，將被設定為此詞元。
bos_token (str, 可選, 預設為 "<|endoftext|>") — 序列開始詞元（token）。在生成時，decoder_start_token_id 用於將第一個詞元設定為 "<|startoftranscript|>"。
eos_token (str, 可選, 預設為 "<|endoftext|>") — 序列結束詞元（token）。
add_prefix_space (bool, 可選, 預設為 False) — 是否在輸入前新增一個初始空格。這允許將開頭的單詞像其他單詞一樣處理。（Whisper 分詞器透過前面的空格來檢測單詞的開頭）。
language (str, 可選) — 轉錄文字的語言。對於多語言語音識別和語音翻譯任務，相應的語言 ID 詞元會附加到序列的開頭，例如，對於西班牙語，詞元 "<|es|>" 會附加到序列開頭。這應該只用於多語言微調。
task (str, 可選) — 任務識別符號，用於附加在序列開頭（如果有）。這應該用於多語言微調，其中 "transcribe" 用於語音識別，"translate" 用於語音翻譯。
predict_timestamps (bool, 可選, 預設為 False) — 是否在序列開頭省略 <|notimestamps|> 詞元。

構建一個“快速” Whisper 分詞器（由 HuggingFace 的 tokenizers 庫支援）。

此分詞器繼承自 PreTrainedTokenizerFast，其中包含了大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。

Transformers

Whisper

注意

WhisperConfig

class transformers.WhisperConfig

WhisperTokenizer

class transformers.WhisperTokenizer

set_prefix_tokens

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

batch_decode

decode

basic_normalize

歸一化

WhisperTokenizerFast

class transformers.WhisperTokenizerFast

set_prefix_tokens

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

batch_decode

decode

basic_normalize

歸一化

WhisperFeatureExtractor

class transformers.WhisperFeatureExtractor

__call__

WhisperProcessor

class transformers.WhisperProcessor

__call__

from_pretrained

save_pretrained

batch_decode

decode

WhisperModel

class transformers.WhisperModel

forward

_mask_input_features

WhisperForConditionalGeneration

class transformers.WhisperForConditionalGeneration

forward

生成

WhisperForCausalLM

class transformers.WhisperForCausalLM

forward

WhisperForAudioClassification

class transformers.WhisperForAudioClassification

forward

TFWhisperModel

class transformers.TFWhisperModel

呼叫

TFWhisperForConditionalGeneration

class transformers.TFWhisperForConditionalGeneration

呼叫

FlaxWhisperModel

class transformers.FlaxWhisperModel

__call__

FlaxWhisperForConditionalGeneration

class transformers.FlaxWhisperForConditionalGeneration

__call__

FlaxWhisperForAudioClassification

class transformers.FlaxWhisperForAudioClassification

__call__

call

call

call

call

call