語音轉文字（Speech2Text）

概述

Speech2Text 模型由 Changhan Wang、Yun Tang、Xutai Ma、Anne Wu、Dmytro Okhonko、Juan Pino 在 fairseq S2T：使用 fairseq 進行快速語音到文字建模中提出。它是一個基於 Transformer 的 seq2seq（編碼器-解碼器）模型，專為端到端自動語音識別（ASR）和語音翻譯（ST）設計。它使用一個卷積下采樣器，將語音輸入的長度減少 3/4，然後將其送入編碼器。該模型透過標準自迴歸交叉熵損失進行訓練，並自迴歸地生成文字/翻譯。Speech2Text 已在多個數據集上進行 ASR 和 ST 的微調：LibriSpeech、CoVoST 2、MuST-C。

此模型由 valhalla 貢獻。原始程式碼可在此處找到。

推理

Speech2Text 是一個語音模型，它接受從語音訊號中提取的對數梅爾濾波器組特徵的浮點張量。它是一個基於 Transformer 的 seq2seq 模型，因此文字/翻譯是自迴歸生成的。generate() 方法可用於推理。

Speech2TextFeatureExtractor 類負責提取對數梅爾濾波器組特徵。Speech2TextProcessor 將 Speech2TextFeatureExtractor 和 Speech2TextTokenizer 封裝到一個例項中，以同時提取輸入特徵和解碼預測的 token ID。

特徵提取器依賴於 torchaudio，分詞器依賴於 sentencepiece，因此在執行示例之前務必安裝這些包。您可以選擇使用 pip install transformers"[speech, sentencepiece]" 安裝額外的語音依賴項，或者使用 pip install torchaudio sentencepiece 單獨安裝這些包。此外，torchaudio 需要 libsndfile 包的開發版本，可以透過系統包管理器安裝。在 Ubuntu 上，可以按如下方式安裝：apt install libsndfile1-dev

ASR 和語音翻譯

>>> import torch
>>> from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
>>> from datasets import load_dataset

>>> model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-librispeech-asr")
>>> processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-librispeech-asr")


>>> ds = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")

>>> inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt")
>>> generated_ids = model.generate(inputs["input_features"], attention_mask=inputs["attention_mask"])

>>> transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)
>>> transcription
['mister quilter is the apostle of the middle classes and we are glad to welcome his gospel']

多語言語音翻譯

對於多語言語音翻譯模型，eos_token_id 用作 decoder_start_token_id，並且目標語言 ID 被強制作為第一個生成的 token。要強制目標語言 ID 作為第一個生成的 token，請將 forced_bos_token_id 引數傳遞給 generate() 方法。以下示例展示瞭如何使用 facebook/s2t-medium-mustc-multilingual-st 檢查點將英語語音翻譯為法語文字。

>>> import torch
>>> from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
>>> from datasets import load_dataset

>>> model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-mustc-multilingual-st")
>>> processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-mustc-multilingual-st")

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")

>>> inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt")
>>> generated_ids = model.generate(
...     inputs["input_features"],
...     attention_mask=inputs["attention_mask"],
...     forced_bos_token_id=processor.tokenizer.lang_code_to_id["fr"],
... )

>>> translation = processor.batch_decode(generated_ids, skip_special_tokens=True)
>>> translation
["(Vidéo) Si M. Kilder est l'apossible des classes moyennes, et nous sommes heureux d'être accueillis dans son évangile."]

請訪問模型中心查詢 Speech2Text 檢查點。

Speech2TextConfig

class transformers.Speech2TextConfig

< 源 >

( vocab_size = 10000 encoder_layers = 12 encoder_ffn_dim = 2048 encoder_attention_heads = 4 decoder_layers = 6 decoder_ffn_dim = 2048 decoder_attention_heads = 4 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 use_cache = True is_encoder_decoder = True activation_function = 'relu' d_model = 256 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 decoder_start_token_id = 2 scale_embedding = True pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 max_source_positions = 6000 max_target_positions = 1024 num_conv_layers = 2 conv_kernel_sizes = (5, 5) conv_channels = 1024 input_feat_per_channel = 80 input_channels = 1 **kwargs )

引數

vocab_size (int, 可選, 預設為 10000) — Speech2Text 模型的詞彙表大小。定義了呼叫 Speech2TextModel 時傳入的 inputs_ids 可以表示的不同 token 的數量。
encoder_layers (int, 可選, 預設為 12) — 編碼器層數。
encoder_ffn_dim (int, 可選, 預設為 2048) — 編碼器中“中間”（通常稱為前饋）層的維度。
encoder_attention_heads (int, 可選, 預設為 4) — Transformer 編碼器中每個注意力層的注意力頭數量。
decoder_layers (int, 可選, 預設為 6) — 解碼器層數。
decoder_ffn_dim (int, 可選, 預設為 2048) — 解碼器中“中間”（通常稱為前饋）層的維度。
decoder_attention_heads (int, 可選, 預設為 4) — Transformer 解碼器中每個注意力層的注意力頭數量。
encoder_layerdrop (float, 可選, 預設為 0.0) — 編碼器的 LayerDrop 機率。有關更多詳細資訊，請參閱 LayerDrop 論文。
decoder_layerdrop (float, 可選, 預設為 0.0) — 解碼器的 LayerDrop 機率。有關更多詳細資訊，請參閱 LayerDrop 論文。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。
is_encoder_decoder (bool, 可選, 預設為 True) — 模型是否設定為用於序列到序列任務的編碼器-解碼器架構。
activation_function (str 或 function, 可選, 預設為 "relu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果是字串，則支援 "gelu"、"relu"、"silu" 和 "gelu_new"。
d_model (int, 可選, 預設為 256) — 層和池化層的維度。
dropout (float, 可選, 預設為 0.1) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
activation_dropout (float, 可選, 預設為 0.0) — 全連線層內部啟用的 dropout 比率。
init_std (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
decoder_start_token_id (int, 可選, 預設為 2) — 解碼序列時解碼器的初始 token ID。
scale_embedding (bool, 可選, 預設為 True) — 嵌入是否按 d_model 的平方根進行縮放。
pad_token_id (int, 可選, 預設為 1) — 填充 token ID。
bos_token_id (int, 可選, 預設為 0) — 序列開始 token 的 ID。
eos_token_id (int, 可選, 預設為 2) — 序列結束 token 的 ID。
max_source_positions (int, 可選, 預設為 6000) — 此模型可能使用的對數梅爾濾波器組特徵的最大序列長度。
max_target_positions (int, 可選, 預設為 1024) — 此模型可能使用的最大序列長度。通常，為以防萬一設定為較大值（例如，512、1024 或 2048）。
num_conv_layers (int, 可選, 預設為 2) — 卷積模組中一維卷積層的數量。
conv_kernel_sizes (tuple[int], 可選, 預設為 (5, 5)) — 定義卷積模組中每個一維卷積層核大小的整數元組。conv_kernel_sizes 的長度必須與 num_conv_layers 匹配。
conv_channels (int, 可選, 預設為 1024) — 定義卷積模組中除最後一層外每個卷積層的輸出通道數的整數。
input_feat_per_channel (int, 可選, 預設為 80) — 指定特徵向量大小的整數。這也是對數梅爾濾波器組特徵的維度。
input_channels (int, 可選, 預設為 1) — 指定輸入特徵向量的輸入通道數的整數。

這是用於儲存 Speech2TextModel 配置的配置類。它用於根據指定的引數例項化 Speech2Text 模型，定義模型架構。使用預設值例項化配置將產生類似於 Speech2Text facebook/s2t-small-librispeech-asr 架構的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import Speech2TextConfig, Speech2TextModel

>>> # Initializing a Speech2Text s2t_transformer_s style configuration
>>> configuration = Speech2TextConfig()

>>> # Initializing a model (with random weights) from the s2t_transformer_s style configuration
>>> model = Speech2TextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Speech2TextTokenizer

class transformers.Speech2TextTokenizer

< 源 >

( vocab_file spm_file bos_token = '<s>' eos_token = '</s>' pad_token = '<pad>' unk_token = '<unk>' do_upper_case = False do_lower_case = False tgt_lang = None lang_codes = None additional_special_tokens = None sp_model_kwargs: typing.Optional[dict[str, typing.Any]] = None **kwargs )

引數

vocab_file (str) — 包含詞彙表的檔案。
spm_file (str) — SentencePiece 模型檔案的路徑
bos_token (str, 可選, 預設為 "<s>") — 句子開始 token。
eos_token (str, 可選, 預設為 "</s>") — 句子結束 token。
unk_token (str, 可選, 預設為 "<unk>") — 未知 token。詞彙表中不存在的 token 無法轉換為 ID，而是設定為此 token。
pad_token (str, 可選, 預設為 "<pad>") — 用於填充的 token，例如在批處理不同長度的序列時。
do_upper_case (bool, 可選, 預設為 False) — 解碼時是否將輸出轉換為大寫。
do_lower_case (bool, 可選, 預設為 False) — 分詞時是否將輸入轉換為小寫。
tgt_lang (str, 可選) — 表示目標語言的字串。
sp_model_kwargs (dict, 可選) — 將傳遞給 SentencePieceProcessor.__init__() 方法。 SentencePiece 的 Python 封裝可用於設定以下內容：
- enable_sampling: 啟用子詞正則化。
- nbest_size: Unigram 的取樣引數。對於 BPE-Dropout 無效。
  - nbest_size = {0,1}: 不執行取樣。
  - nbest_size > 1: 從 nbest_size 結果中取樣。
  - nbest_size < 0: 假設 nbest_size 是無限的，並使用前向濾波和後向取樣演算法從所有假設（格子）中取樣。
- alpha: Unigram 取樣的平滑引數，以及 BPE-dropout 合併操作的 dropout 機率。
**kwargs — 傳遞給 PreTrainedTokenizer 的其他關鍵字引數

構建 Speech2Text 分詞器。

此分詞器繼承自 PreTrainedTokenizer，其中包含一些主要方法。使用者應參閱此超類以獲取有關此類方法的更多資訊。

build_inputs_with_special_tokens

< 源 >

( token_ids_0 token_ids_1 = None )

透過追加 eos_token_id 從序列構建模型輸入。

get_special_tokens_mask

< 源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → list[int]

引數

token_ids_0 (list[int]) — ID 列表。
token_ids_1 (list[int], 可選) — 用於序列對的第二個 ID 列表（可選）。
already_has_special_tokens (bool, 可選, 預設為 False) — 標記列表是否已為模型格式化為特殊標記。

列表[整型]

一個範圍為 [0, 1] 的整數列表：1 表示特殊標記，0 表示序列標記。

從沒有新增特殊標記的標記列表中檢索序列ID。此方法在使用分詞器prepare_for_model方法新增特殊標記時呼叫。

create_token_type_ids_from_sequences

< 源 >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → list[int]

引數

token_ids_0 (list[int]) — 第一個分詞序列。
token_ids_1 (list[int], 可選) — 第二個分詞序列。

列表[整型]

標記型別 ID。

建立與傳入序列對應的標記型別 ID。什麼是標記型別 ID？

如果模型有特殊的構建方式，應在子類中重寫此方法。

save_vocabulary

< 源 >

( save_directory: str filename_prefix: typing.Optional[str] = None )

Speech2TextFeatureExtractor

class transformers.Speech2TextFeatureExtractor

< 源 >

( feature_size = 80 sampling_rate = 16000 num_mel_bins = 80 padding_value = 0.0 dither = 0.0 do_ceptral_normalize = True normalize_means = True normalize_vars = True **kwargs )

引數

feature_size (int, 可選, 預設為 80) — 提取特徵的特徵維度。
sampling_rate (int, 可選, 預設為 16000) — 音訊檔案數字化的取樣率，以赫茲 (Hz) 表示。
num_mel_bins (int, 可選, 預設為 80) — Mel 頻率 bin 的數量。
padding_value (float, 可選, 預設為 0.0) — 用於填充填充向量的值。
dither (float, 可選, 預設為 0.0) — 新增抖動。換句話說，為每個幀新增一個小的高斯噪聲。例如，使用 4.0 將抖動與以 0.0 為中心、標準差為 4.0 的正態分佈（假設 kaldi 波形範圍為 [-32k,+32k]）新增到訊號中。值 0.0 表示不抖動。抖動與 mel_floor 具有類似的效果。當訊號中存在 VAD 截止時，它會降低具有硬零部分的訊號的高 log_mel_fbank 值。
do_ceptral_normalize (bool, 可選, 預設為 True) — 是否對提取的特徵應用語音級倒譜均值和方差歸一化。
normalize_means (bool, 可選, 預設為 True) — 是否對提取的特徵進行零均值歸一化。
normalize_vars (bool, 可選, 預設為 True) — 是否對提取的特徵進行單位方差歸一化。

構建 Speech2Text 特徵提取器。

此特徵提取器繼承自 Speech2TextFeatureExtractor，其中包含大部分主要方法。使用者應參閱此超類以獲取有關這些方法的更多資訊。

此類別使用 TorchAudio（如果已安裝）或 Numpy（否則）從原始語音中提取 Mel 濾波器組特徵，並對提取的特徵應用語音級倒譜均值和方差歸一化。

call

< 源 >

( raw_speech: typing.Union[numpy.ndarray, list[float], list[numpy.ndarray], list[list[float]]] padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False max_length: typing.Optional[int] = None truncation: bool = False pad_to_multiple_of: typing.Optional[int] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None sampling_rate: typing.Optional[int] = None return_attention_mask: typing.Optional[bool] = None **kwargs )

引數

raw_speech (np.ndarray, list[float], list[np.ndarray], list[list[float]]) — 要填充的序列或序列批次。每個序列可以是 numpy 陣列、浮點值列表、numpy 陣列列表或浮點值列表的列表。必須是單聲道音訊，而不是立體聲，即每個時間步長一個浮點數。
padding (bool, str 或 PaddingStrategy, 可選, 預設為 True) — 從以下策略中選擇一種來填充返回的序列（根據模型的填充側和填充索引）：
- True 或 'longest'：填充到批次中最長的序列（如果只提供一個序列，則不填充）。
- 'max_length'：填充到由引數 max_length 指定的最大長度，如果未提供該引數，則填充到模型可接受的最大輸入長度。
- False 或 'do_not_pad' (預設)：不填充（即可以輸出具有不同長度序列的批次）。
max_length (int, 可選) — 返回列表的最大長度和可選的填充長度（見上文）。
truncation (bool) — 啟用截斷，將長於 max_length 的輸入序列截斷為 max_length。
pad_to_multiple_of (int, 可選) — 如果設定，將序列填充為所提供值的倍數。

這對於在計算能力 >= 7.5 (Volta) 的 NVIDIA 硬體上啟用 Tensor Core 的使用特別有用，或者在 TPU 上，這些 TPU 受益於序列長度為 128 的倍數。
return_attention_mask (bool, 可選) — 是否返回注意力掩碼。如果保留預設值，將根據特定 feature_extractor 的預設值返回注意力掩碼。

什麼是注意力掩碼？

對於 Speech2TextTransformer 模型，在批次推理時應始終傳遞 attention_mask，以避免細微錯誤。
return_tensors (str 或 TensorType, 可選) — 如果設定，將返回張量而不是 Python 整數列表。可接受的值為：
- 'tf'：返回 TensorFlow tf.constant 物件。
- 'pt'：返回 PyTorch torch.Tensor 物件。
- 'np'：返回 Numpy np.ndarray 物件。
sampling_rate (int, 可選) — raw_speech 輸入的取樣率。強烈建議在轉發呼叫時傳遞 sampling_rate 以防止靜默錯誤。
padding_value (float, 可選, 預設為 0.0) — 用於填充填充值/向量的值。

對一個或多個序列進行特徵化併為模型準備的主方法。

Speech2TextProcessor

class transformers.Speech2TextProcessor

< 源 >

( feature_extractor tokenizer )

引數

feature_extractor (Speech2TextFeatureExtractor) — Speech2TextFeatureExtractor 的例項。特徵提取器是必需輸入。
tokenizer (Speech2TextTokenizer) — Speech2TextTokenizer 的例項。分詞器是必需輸入。

構建 Speech2Text 處理器，它將 Speech2Text 特徵提取器和 Speech2Text 分詞器封裝到一個處理器中。

Speech2TextProcessor 提供了 Speech2TextFeatureExtractor 和 Speech2TextTokenizer 的所有功能。有關更多資訊，請參閱 call() 和 decode() 的文件字串。

call

< 源 >

( *args **kwargs )

在正常模式下使用時，此方法將其所有引數轉發給 Speech2TextFeatureExtractor 的 call() 並返回其輸出。如果在 as_target_processor() 上下文中使用，此方法將其所有引數轉發給 Speech2TextTokenizer 的 call()。有關更多資訊，請參閱上述兩種方法的文件字串。

from_pretrained

< 源 >

( pretrained_model_name_or_path: typing.Union[str, os.PathLike] cache_dir: typing.Union[str, os.PathLike, NoneType] = None force_download: bool = False local_files_only: bool = False token: typing.Union[str, bool, NoneType] = None revision: str = 'main' **kwargs )

引數

pretrained_model_name_or_path (str 或 os.PathLike) — 這可以是以下之一：
- 一個字串，huggingface.co 上模型倉庫中託管的預訓練特徵提取器的 模型 ID。
- 包含使用 save_pretrained() 方法儲存的特徵提取器檔案的目錄路徑，例如 ./my_model_directory/。
- 已儲存的特徵提取器 JSON 檔案的路徑或 URL，例如 ./my_model_directory/preprocessor_config.json。
**kwargs — 額外關鍵字引數，同時傳遞給 from_pretrained() 和 ~tokenization_utils_base.PreTrainedTokenizer.from_pretrained。

例項化與預訓練模型關聯的處理器。

此類方法只是呼叫特徵提取器 from_pretrained()、影像處理器 ImageProcessingMixin 和分詞器 ~tokenization_utils_base.PreTrainedTokenizer.from_pretrained 方法。有關更多資訊，請參閱上述方法的文件字串。

save_pretrained

< 源 >

( save_directory push_to_hub: bool = False **kwargs )

引數

save_directory (str 或 os.PathLike) — 特徵提取器 JSON 檔案和分詞器檔案將儲存到的目錄（如果目錄不存在，則會建立）。
push_to_hub (bool, 可選, 預設為 False) — 是否在儲存模型後將其推送到 Hugging Face 模型中心。你可以使用 repo_id 指定要推送到的倉庫（預設為你名稱空間中的 save_directory 名稱）。
kwargs (dict[str, Any], 可選) — 傳遞給 push_to_hub() 方法的額外關鍵字引數。

將此處理器的屬性（特徵提取器、分詞器…）儲存到指定目錄，以便可以使用 from_pretrained() 方法重新載入。

此類別方法只是呼叫 save_pretrained() 和 save_pretrained()。有關更多資訊，請參閱上述方法的文件字串。

batch_decode

< 源 >

( *args **kwargs )

此方法將其所有引數轉發給 Speech2TextTokenizer 的 batch_decode()。有關更多資訊，請參閱此方法的文件字串。

decode

< 源 >

( *args **kwargs )

此方法將其所有引數轉發給 Speech2TextTokenizer 的 decode()。有關更多資訊，請參閱此方法的文件字串。

Pytorch

隱藏 Pytorch 內容

Speech2TextModel

class transformers.Speech2TextModel

< source >

( config: Speech2TextConfig )

引數

config (Speech2TextConfig) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

裸 Speech To Text 模型，直接輸出原始隱藏狀態，不帶任何特定頭部。

此模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 的子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件中所有與一般用法和行為相關的事項。

正向傳播

< source >

( input_features: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

引數

input_features (torch.FloatTensor，形狀為 (batch_size, sequence_length, feature_size)) — 從原始語音波形中提取的 fbank 特徵的浮點值。原始語音波形可以透過載入 .flac 或 .wav 音訊檔案到 list[float] 型別陣列或 numpy.ndarray（例如，透過 soundfile 庫 pip install soundfile）獲得。要將陣列準備為 input_features，應使用 AutoFeatureExtractor 來提取 fbank 特徵、填充並轉換為 torch.FloatTensor 型別的張量。參閱 call()
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免在填充標記索引上執行注意力操作的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示標記未被掩碼，
- 0 表示標記已被掩碼。
什麼是注意力掩碼？
decoder_input_ids (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 詞彙表中解碼器輸入序列標記的索引。

可以使用 SpeechToTextTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

SpeechToText 使用 eos_token_id 作為 decoder_input_ids 生成的起始標記。如果使用 past_key_values，則可選地只需輸入最後一個 decoder_input_ids（那些沒有將其過去的鍵值狀態提供給此模型的標記）（請參閱 past_key_values）。
decoder_attention_mask (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 預設行為：生成一個忽略 decoder_input_ids 中填充標記的張量。預設情況下也會使用因果掩碼。

如果您想更改填充行為，應閱讀 modeling_speech_to_text._prepare_decoder_attention_mask 並根據您的需要進行修改。有關預設策略的更多資訊，請參閱論文中的圖 1。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組中的選定頭部無效的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示頭部未被掩碼，
- 0 表示頭部已被掩碼。
decoder_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示頭部未被掩碼，
- 0 表示頭部已被掩碼。
cross_attn_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示頭部未被掩碼，
- 0 表示頭部已被掩碼。
encoder_outputs (tuple[tuple[torch.FloatTensor]]，可選) — 元組包含 (last_hidden_state, 可選: hidden_states, 可選: attentions) last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size)，可選) 是編碼器最後一層輸出的隱藏狀態序列。在解碼器的交叉注意力中會使用。
past_key_values (tuple[tuple[torch.FloatTensor]], 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在先前解碼階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇只輸入形狀為 (batch_size, 1) 的最後一個 input_ids（那些沒有將過去的鍵值狀態提供給此模型的標記），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
decoder_inputs_embeds (torch.FloatTensor，形狀為 (batch_size, target_sequence_length, hidden_size)，可選) — 可選地，除了傳遞 decoder_input_ids，您還可以選擇直接傳遞嵌入表示。如果使用 past_key_values，可選地只需輸入最後一個 decoder_inputs_embeds（請參閱 past_key_values）。如果您希望對 decoder_input_ids 索引如何轉換為相關向量有比模型內部嵌入查詢矩陣更多的控制，這會很有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 都未設定，decoder_inputs_embeds 將取 inputs_embeds 的值。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參閱 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。

transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.Seq2SeqLMOutput 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或 config.return_dict=False），包含根據配置 (Speech2TextConfig) 和輸入的不同元素。

loss (torch.FloatTensor，形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (EncoderDecoderCache, 可選, 當傳入 use_cache=True 或 config.use_cache=True 時返回) — 它是一個 EncoderDecoderCache 例項。更多詳情，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入層輸出一個，每層輸出一個）的形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每層一個）的形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每層一個）的形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入層輸出一個，每層輸出一個）的形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每層一個）的形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

Speech2TextModel 的正向傳播方法，重寫了 __call__ 特殊方法。

雖然正向傳播的實現需要在函式內部定義，但之後應該呼叫 Module 例項而不是這個函式，因為前者會處理預處理和後處理步驟，而後者會默默忽略它們。

示例

>>> import torch
>>> from transformers import Speech2TextModel, AutoFeatureExtractor
>>> from datasets import load_dataset

>>> model = Speech2TextModel.from_pretrained("facebook/s2t-small-librispeech-asr")
>>> feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/s2t-small-librispeech-asr")
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> inputs = feature_extractor(
...     ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt"
... )
>>> input_features = inputs.input_features
>>> decoder_input_ids = torch.tensor([[1, 1]]) * model.config.decoder_start_token_id
>>> last_hidden_state = model(input_features, decoder_input_ids=decoder_input_ids).last_hidden_state
>>> list(last_hidden_state.shape)
[1, 2, 256]

Speech2TextForConditionalGeneration

類 transformers.Speech2TextForConditionalGeneration

< source >

( config: Speech2TextConfig )

引數

config (Speech2TextConfig) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有語言建模頭的 Speech2Text 模型。可用於文字摘要。

此模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 的子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件中所有與一般用法和行為相關的事項。

正向傳播

< source >

( input_features: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

引數

input_features (torch.FloatTensor，形狀為 (batch_size, sequence_length, feature_size)) — 從原始語音波形中提取的 fbank 特徵的浮點值。原始語音波形可以透過載入 .flac 或 .wav 音訊檔案到 list[float] 型別陣列或 numpy.ndarray（例如，透過 soundfile 庫 pip install soundfile）獲得。要將陣列準備為 input_features，應使用 AutoFeatureExtractor 來提取 fbank 特徵、填充並轉換為 torch.FloatTensor 型別的張量。參閱 call()
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免在填充標記索引上執行注意力操作的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示標記未被掩碼，
- 0 表示標記已被掩碼。
什麼是注意力掩碼？
decoder_input_ids (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 詞彙表中解碼器輸入序列標記的索引。

可以使用 SpeechToTextTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是解碼器輸入 ID？

SpeechToText 使用 eos_token_id 作為 decoder_input_ids 生成的起始標記。如果使用 past_key_values，則可選地只需輸入最後一個 decoder_input_ids（那些沒有將其過去的鍵值狀態提供給此模型的標記）（請參閱 past_key_values）。
decoder_attention_mask (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 預設行為：生成一個忽略 decoder_input_ids 中填充標記的張量。預設情況下也會使用因果掩碼。

如果您想更改填充行為，應閱讀 modeling_speech_to_text._prepare_decoder_attention_mask 並根據您的需要進行修改。有關預設策略的更多資訊，請參閱論文中的圖 1。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組中的選定頭部無效的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示頭部未被掩碼，
- 0 表示頭部已被掩碼。
decoder_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示頭部未被掩碼，
- 0 表示頭部已被掩碼。
cross_attn_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示頭部未被掩碼，
- 0 表示頭部已被掩碼。
encoder_outputs (tuple[tuple[torch.FloatTensor]], 可選) — 元組包含 (last_hidden_state, 可選: hidden_states, 可選: attentions) last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size)，可選) 是編碼器最後一層輸出的隱藏狀態序列。在解碼器的交叉注意力中會使用。
past_key_values (tuple[tuple[torch.FloatTensor]], 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在先前解碼階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇只輸入形狀為 (batch_size, 1) 的最後一個 input_ids（那些沒有將過去的鍵值狀態提供給此模型的標記），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
decoder_inputs_embeds (torch.FloatTensor，形狀為 (batch_size, target_sequence_length, hidden_size)，可選) — 可選地，除了傳遞 decoder_input_ids，您還可以選擇直接傳遞嵌入表示。如果使用 past_key_values，可選地只需輸入最後一個 decoder_inputs_embeds（請參閱 past_key_values）。如果您希望對 decoder_input_ids 索引如何轉換為相關向量有比模型內部嵌入查詢矩陣更多的控制，這會很有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 都未設定，decoder_inputs_embeds 將取 inputs_embeds 的值。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（參閱 input_ids 文件字串）。索引設定為 -100 的標記將被忽略（掩碼），損失只針對標籤在 [0, ..., config.vocab_size] 之間的標記計算。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參閱 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。

transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

loss (torch.FloatTensor，形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (EncoderDecoderCache, 可選, 當傳入 use_cache=True 或 config.use_cache=True 時返回) — 它是一個 EncoderDecoderCache 例項。更多詳情，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入層輸出一個，每層輸出一個）的形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每層一個）的形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每層一個）的形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入層輸出一個，每層輸出一個）的形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每層一個）的形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

Speech2TextForConditionalGeneration 的正向傳播方法，重寫了 __call__ 特殊方法。

示例

>>> import torch
>>> from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
>>> from datasets import load_dataset

>>> model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-librispeech-asr")
>>> processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-librispeech-asr")


>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

>>> inputs = processor(
...     ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt"
... )
>>> input_features = inputs.input_features

>>> generated_ids = model.generate(inputs=input_features)

>>> transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> transcription
'mister quilter is the apostle of the middle classes and we are glad to welcome his gospel'

TensorFlow

隱藏 TensorFlow 內容

TFSpeech2TextModel

類 transformers.TFSpeech2TextModel

< source >

( config: Speech2TextConfig *inputs **kwargs )

引數

config (Speech2TextConfig) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

輸出原始隱藏狀態的Speech2Text基本模型，其上沒有任何特定的頭部。此模型繼承自TFPreTrainedModel。查閱超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是keras.Model的子類。將其用作常規的TF 2.0 Keras模型，並查閱TF 2.0文件以瞭解所有與一般用法和行為相關的事項。

transformers 中的 TensorFlow 模型和層接受兩種輸入格式

所有輸入作為關鍵字引數（如 PyTorch 模型），或
所有輸入作為第一個位置引數中的列表、元組或字典。

支援第二種格式的原因是，Keras方法在將輸入傳遞給模型和層時更喜歡這種格式。由於這種支援，當使用model.fit()等方法時，對你來說事情應該“自然而然地”進行——只需以model.fit()支援的任何格式傳遞你的輸入和標籤即可！但是，如果你想在Keras方法（如fit()和predict()）之外使用第二種格式，例如在使用Keras Functional API建立自己的層或模型時，你可以使用三種可能性來收集第一個位置引數中的所有輸入張量。

只有一個 input_ids 的單個張量，沒有其他：model(input_ids)
長度可變的列表，包含一個或多個輸入張量，按文件字串中給出的順序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一個字典，其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

請注意，在使用子類化建立模型和層時，你無需擔心這些，因為你可以像對任何其他Python函式一樣傳遞輸入！

呼叫

< source >

( input_features: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None decoder_input_ids: np.ndarray | tf.Tensor | None = None decoder_attention_mask: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None decoder_head_mask: np.ndarray | tf.Tensor | None = None cross_attn_head_mask: np.ndarray | tf.Tensor | None = None encoder_outputs: np.ndarray | tf.Tensor | None = None past_key_values: Optional[tuple[tuple[Union[np.ndarray, tf.Tensor]]]] = None decoder_inputs_embeds: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False **kwargs ) → transformers.modeling_tf_outputs.TFSeq2SeqModelOutput or tuple(tf.Tensor)

引數

input_features (tf.Tensor，形狀為 (batch_size, sequence_length, feature_size)) — 從原始語音波形中提取的fbank特徵的浮點值。原始語音波形可以透過將.flac或.wav音訊檔案載入到list[float]型別或numpy.ndarray的陣列中來獲取，例如透過soundfile庫（pip install soundfile）。要將陣列準備成input_features，應使用AutoFeatureExtractor來提取fbank特徵、填充並轉換為浮點張量。請參閱call()
attention_mask (tf.Tensor，形狀為 ({0})，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示標記未被掩蓋，
- 0表示標記被掩蓋。
什麼是注意力掩碼？
decoder_input_ids (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 解碼器輸入序列標記在詞彙表中的索引。

可以使用Speech2TextTokenizer獲取索引。有關詳細資訊，請參閱PreTrainedTokenizer.encode()和PreTrainedTokenizer.call()。

什麼是解碼器輸入ID？

SpeechToText使用eos_token_id作為decoder_input_ids生成的起始標記。如果使用了past_key_values，則可選地只需輸入最後一段decoder_input_ids（即模型未提供其過去鍵值狀態的部分），其形狀為(batch_size, 1)，而不是所有decoder_input_ids（其形狀為(batch_size, sequence_length)）。

對於翻譯和摘要訓練，應提供decoder_input_ids。如果沒有提供decoder_input_ids，模型將透過將input_ids右移來建立此張量，以遵循論文進行去噪預訓練。
decoder_attention_mask (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 預設情況下會建立，並忽略填充標記。在大多數使用場景下不建議設定此引數。
head_mask (tf.Tensor，形狀為 (encoder_layers, encoder_attention_heads)，可選) — 用於使編碼器中注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示頭部未被掩蓋，
- 0表示頭部被掩蓋。
decoder_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示頭部未被掩蓋，
- 0表示頭部被掩蓋。
cross_attn_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示頭部未被掩蓋，
- 0表示頭部被掩蓋。
encoder_outputs (tf.FloatTensor，可選) — 編碼器最後一層輸出的隱藏狀態。在解碼器的交叉注意力中使用的形狀為(batch_size, sequence_length, hidden_size)的序列。
past_key_values (tuple[tuple[tf.Tensor]]，長度為config.n_layers) — 包含預計算的注意力塊的鍵和值隱藏狀態。可用於加速解碼。如果使用past_key_values，使用者可以選擇僅輸入最後一個decoder_input_ids（那些沒有將其過去的鍵值狀態提供給此模型的），其形狀為(batch_size, 1)，而不是所有decoder_input_ids（其形狀為(batch_size, sequence_length)）。
decoder_inputs_embeds (tf.FloatTensor，形狀為 (batch_size, target_sequence_length, hidden_size)，可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞decoder_input_ids。如果使用past_key_values，可選地只需輸入最後一個decoder_inputs_embeds（參見past_key_values）。這對於你希望對如何將decoder_input_ids索引轉換為相關向量具有比模型內部嵌入查詢矩陣更多控制時非常有用。
use_cache (bool，可選) — 如果設定為True，則返回past_key_values鍵值狀態，可用於加速解碼（參見past_key_values）。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的attentions。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的hidden_states。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
return_dict (bool，可選) — 是否返回ModelOutput而不是普通的元組。此引數可在即時模式下使用，在圖模式下此值將始終設定為True。
training (bool，可選，預設為False) — 是否在訓練模式下使用模型（某些模組如dropout模組在訓練和評估之間有不同的行為）。

transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或 tuple(tf.Tensor)

一個transformers.modeling_tf_outputs.TFSeq2SeqModelOutput或者一個tf.Tensor的元組（如果傳遞了return_dict=False或者當config.return_dict=False時），包含根據配置（Speech2TextConfig）和輸入的不同元素。

last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 tf.Tensor) — 模型解碼器最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (list[tf.Tensor]，可選，當傳遞use_cache=True或當config.use_cache=True時返回) — 長度為config.n_layers的tf.Tensor列表，每個張量的形狀為(2, batch_size, num_heads, sequence_length, embed_size_per_head))。

包含解碼器注意力塊的預計算隱藏狀態（鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞output_hidden_states=True或當config.output_hidden_states=True時返回) — tf.Tensor元組（一個用於嵌入輸出 + 一個用於每層輸出），形狀為(batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(tf.Tensor)，可選，當傳遞output_attentions=True或當config.output_attentions=True時返回) — tf.Tensor元組（每層一個），形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(tf.Tensor)，可選，當傳遞output_attentions=True或當config.output_attentions=True時返回) — tf.Tensor元組（每層一個），形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 tf.Tensor, 可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞output_hidden_states=True或當config.output_hidden_states=True時返回) — tf.Tensor元組（一個用於嵌入輸出 + 一個用於每層輸出），形狀為(batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(tf.Tensor)，可選，當傳遞output_attentions=True或當config.output_attentions=True時返回) — tf.Tensor元組（每層一個），形狀為(batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

TFSpeech2TextModel的forward方法，覆蓋了__call__特殊方法。

示例

>>> from transformers import AutoTokenizer, TFSpeech2TextModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/s2t-small-librispeech-asr")
>>> model = TFSpeech2TextModel.from_pretrained("facebook/s2t-small-librispeech-asr")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFSpeech2TextForConditionalGeneration

class transformers.TFSpeech2TextForConditionalGeneration

< source >

( config: Speech2TextConfig )

引數

config (Speech2TextConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，只加載配置。請查閱from_pretrained()方法以載入模型權重。

帶有語言建模頭的Speech2Text模型。可用於摘要。此模型繼承自TFPreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是keras.Model的子類。將其用作常規的TF 2.0 Keras模型，並查閱TF 2.0文件以瞭解所有與一般用法和行為相關的事項。

transformers 中的 TensorFlow 模型和層接受兩種輸入格式

所有輸入作為關鍵字引數（如 PyTorch 模型），或
所有輸入作為第一個位置引數中的列表、元組或字典。

只有一個 input_ids 的單個張量，沒有其他：model(input_ids)
長度可變的列表，包含一個或多個輸入張量，按文件字串中給出的順序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一個字典，其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

請注意，在使用子類化建立模型和層時，你無需擔心這些，因為你可以像對任何其他Python函式一樣傳遞輸入！

呼叫

< source >

( input_features: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None decoder_input_ids: np.ndarray | tf.Tensor | None = None decoder_attention_mask: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None decoder_head_mask: np.ndarray | tf.Tensor | None = None cross_attn_head_mask: np.ndarray | tf.Tensor | None = None encoder_outputs: np.ndarray | tf.Tensor | None = None past_key_values: Optional[tuple[tuple[Union[np.ndarray, tf.Tensor]]]] = None decoder_inputs_embeds: np.ndarray | tf.Tensor | None = None labels: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False **kwargs ) → transformers.modeling_tf_outputs.TFSeq2SeqLMOutput or tuple(tf.Tensor)

引數

input_features (tf.Tensor，形狀為 (batch_size, sequence_length, feature_size)) — 從原始語音波形中提取的fbank特徵的浮點值。原始語音波形可以透過將.flac或.wav音訊檔案載入到list[float]型別或numpy.ndarray的陣列中來獲取，例如透過soundfile庫（pip install soundfile）。要將陣列準備成input_features，應使用AutoFeatureExtractor來提取fbank特徵、填充並轉換為浮點張量。請參閱call()
attention_mask (tf.Tensor，形狀為 ({0})，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示標記未被掩蓋，
- 0表示標記被掩蓋。
什麼是注意力掩碼？
decoder_input_ids (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 解碼器輸入序列標記在詞彙表中的索引。

可以使用Speech2TextTokenizer獲取索引。有關詳細資訊，請參閱PreTrainedTokenizer.encode()和PreTrainedTokenizer.call()。

什麼是解碼器輸入ID？

SpeechToText使用eos_token_id作為decoder_input_ids生成的起始標記。如果使用了past_key_values，則可選地只需輸入最後一段decoder_input_ids（即模型未提供其過去鍵值狀態的部分），其形狀為(batch_size, 1)，而不是所有decoder_input_ids（其形狀為(batch_size, sequence_length)）。

對於翻譯和摘要訓練，應提供decoder_input_ids。如果沒有提供decoder_input_ids，模型將透過將input_ids右移來建立此張量，以遵循論文進行去噪預訓練。
decoder_attention_mask (tf.Tensor，形狀為 (batch_size, target_sequence_length)，可選) — 預設情況下會建立，並忽略填充標記。在大多數使用場景下不建議設定此引數。
head_mask (tf.Tensor，形狀為 (encoder_layers, encoder_attention_heads)，可選) — 用於使編碼器中注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示頭部未被掩蓋，
- 0表示頭部被掩蓋。
decoder_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示頭部未被掩蓋，
- 0表示頭部被掩蓋。
cross_attn_head_mask (tf.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭部無效的掩碼。掩碼值選擇範圍為[0, 1]：
- 1表示頭部未被掩蓋，
- 0表示頭部被掩蓋。
encoder_outputs (tf.FloatTensor，可選) — 編碼器最後一層輸出的隱藏狀態。在解碼器的交叉注意力中使用的形狀為(batch_size, sequence_length, hidden_size)的序列。
past_key_values (tuple[tuple[tf.Tensor]]，長度為config.n_layers) — 包含預計算的注意力塊的鍵和值隱藏狀態。可用於加速解碼。如果使用past_key_values，使用者可以選擇僅輸入最後一個decoder_input_ids（那些沒有將其過去的鍵值狀態提供給此模型的），其形狀為(batch_size, 1)，而不是所有decoder_input_ids（其形狀為(batch_size, sequence_length)）。
decoder_inputs_embeds (tf.FloatTensor，形狀為 (batch_size, target_sequence_length, hidden_size)，可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞decoder_input_ids。如果使用past_key_values，可選地只需輸入最後一個decoder_inputs_embeds（參見past_key_values）。這對於你希望對如何將decoder_input_ids索引轉換為相關向量具有比模型內部嵌入查詢矩陣更多控制時非常有用。
use_cache (bool，可選) — 如果設定為True，則返回past_key_values鍵值狀態，可用於加速解碼（參見past_key_values）。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的attentions。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的hidden_states。此引數只能在即時模式下使用，在圖模式下將使用配置中的值。
return_dict (bool，可選) — 是否返回ModelOutput而不是普通的元組。此引數可在即時模式下使用，在圖模式下此值將始終設定為True。
training (bool，可選，預設為False) — 是否在訓練模式下使用模型（某些模組如dropout模組在訓練和評估之間有不同的行為）。
labels (tf.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算掩碼語言模型損失的標籤。索引應在[0, ..., config.vocab_size]或-100之間（參見input_ids文件字串）。索引設定為-100的標記將被忽略（被掩蓋），損失僅針對標籤在[0, ..., config.vocab_size]範圍內的標記計算。

transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或 tuple(tf.Tensor)

一個transformers.modeling_tf_outputs.TFSeq2SeqLMOutput或者一個tf.Tensor的元組（如果傳遞了return_dict=False或者當config.return_dict=False時），包含根據配置（Speech2TextConfig）和輸入的不同元素。

loss (形狀為 (n,) 的 tf.Tensor, 可選, 其中 n 是非掩碼標籤的數量，當提供 labels 時返回) — 語言建模損失。
logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 語言模型頭部的預測分數（SoftMax 之前每個詞彙標記的分數）。
past_key_values (list[tf.Tensor]，可選，當傳遞use_cache=True或當config.use_cache=True時返回) — 長度為config.n_layers的tf.Tensor列表，每個張量的形狀為(2, batch_size, num_heads, sequence_length, embed_size_per_head))。

包含解碼器注意力塊的預計算隱藏狀態（鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞output_hidden_states=True或當config.output_hidden_states=True時返回) — tf.Tensor元組（一個用於嵌入輸出 + 一個用於每層輸出），形狀為(batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(tf.Tensor)，可選，當傳遞output_attentions=True或當config.output_attentions=True時返回) — tf.Tensor元組（每層一個），形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(tf.Tensor)，可選，當傳遞output_attentions=True或當config.output_attentions=True時返回) — tf.Tensor元組（每層一個），形狀為(batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 tf.Tensor, 可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(tf.Tensor)，可選，當傳遞output_hidden_states=True或當config.output_hidden_states=True時返回) — tf.Tensor元組（一個用於嵌入輸出 + 一個用於每層輸出），形狀為(batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(tf.Tensor)，可選，當傳遞output_attentions=True或當config.output_attentions=True時返回) — tf.Tensor元組（每層一個），形狀為(batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

TFSpeech2TextForConditionalGeneration的forward方法，覆蓋了__call__特殊方法。

示例

>>> import tensorflow as tf
>>> from transformers import Speech2TextProcessor, TFSpeech2TextForConditionalGeneration
>>> from datasets import load_dataset
>>> import soundfile as sf

>>> model = TFSpeech2TextForConditionalGeneration.from_pretrained(
...     "facebook/s2t-small-librispeech-asr", from_pt=True
... )
>>> processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-librispeech-asr")


>>> def map_to_array(batch):
...     speech, _ = sf.read(batch["file"])
...     batch["speech"] = speech
...     return batch


>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> ds = ds.map(map_to_array)
>>> ds.set_format(type="tf")

>>> input_features = processor(
...     ds["speech"][0], sampling_rate=16000, return_tensors="tf"
... ).input_features  # Batch size 1
>>> generated_ids = model.generate(input_features)

>>> transcription = processor.batch_decode(generated_ids)

< > 在 GitHub 上更新

Transformers

語音轉文字（Speech2Text）

概述

推理

Speech2TextConfig

class transformers.Speech2TextConfig

Speech2TextTokenizer

class transformers.Speech2TextTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

Speech2TextFeatureExtractor

class transformers.Speech2TextFeatureExtractor

__call__

Speech2TextProcessor

class transformers.Speech2TextProcessor

__call__

from_pretrained

save_pretrained

batch_decode

decode

Speech2TextModel

class transformers.Speech2TextModel

正向傳播

Speech2TextForConditionalGeneration

類 transformers.Speech2TextForConditionalGeneration

正向傳播

TFSpeech2TextModel

類 transformers.TFSpeech2TextModel

呼叫

TFSpeech2TextForConditionalGeneration

class transformers.TFSpeech2TextForConditionalGeneration

呼叫

call

call