Transformers 文件
Dia
並獲得增強的文件體驗
開始使用
Dia
概述
Dia 是一個由 Nari Labs 開發的開源文字轉語音 (TTS) 模型(1.6B 引數)。它可以從文字中生成高度逼真的對話,包括笑聲和咳嗽等非語言交流。此外,透過音訊條件(語音克隆)還可以控制情感和語調。
模型架構: Dia 是一個基於原始 Transformer 架構的編碼器-解碼器 Transformer。但是,也包含了一些更現代的特性,例如旋轉位置嵌入 (RoPE)。對於其文字部分(編碼器),使用位元組分詞器,而對於音訊部分(解碼器),則使用預訓練的編解碼模型 DAC - DAC 將語音編碼為離散的碼本令牌,然後將其解碼迴音頻。
使用技巧
文字生成
from transformers import AutoProcessor, DiaForConditionalGeneration
torch_device = "cuda"
model_checkpoint = "buttercrab/dia-v1-1.6b"
text = ["[S1] Dia is an open weights text to dialogue model."]
processor = AutoProcessor.from_pretrained(model_checkpoint)
inputs = processor(text=text, padding=True, return_tensors="pt").to(torch_device)
model = DiaForConditionalGeneration.from_pretrained(model_checkpoint).to(torch_device)
outputs = model.generate(**inputs, max_new_tokens=256) # corresponds to around ~2s
# save audio to a file
outputs = processor.batch_decode(outputs)
processor.save_audio(outputs, "example.wav")
文字和音訊生成(語音克隆)
from datasets import load_dataset, Audio
from transformers import AutoProcessor, DiaForConditionalGeneration
torch_device = "cuda"
model_checkpoint = "buttercrab/dia-v1-1.6b"
ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
ds = ds.cast_column("audio", Audio(sampling_rate=44100))
audio = ds[-1]["audio"]["array"]
# text is a transcript of the audio + additional text you want as new audio
text = ["[S1] I know. It's going to save me a lot of money, I hope. [S2] I sure hope so for you."]
processor = AutoProcessor.from_pretrained(model_checkpoint)
inputs = processor(text=text, audio=audio, padding=True, return_tensors="pt").to(torch_device)
prompt_len = processor.get_audio_prompt_len(inputs["decoder_attention_mask"])
model = DiaForConditionalGeneration.from_pretrained(model_checkpoint).to(torch_device)
outputs = model.generate(**inputs, max_new_tokens=256) # corresponds to around ~2s
# retrieve actually generated audio and save to a file
outputs = processor.batch_decode(outputs, audio_prompt_len=prompt_len)
processor.save_audio(outputs, "example_with_audio.wav")
訓練
from datasets import load_dataset, Audio
from transformers import AutoProcessor, DiaForConditionalGeneration
torch_device = "cuda"
model_checkpoint = "buttercrab/dia-v1-1.6b"
ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
ds = ds.cast_column("audio", Audio(sampling_rate=44100))
audio = ds[-1]["audio"]["array"]
# text is a transcript of the audio
text = ["[S1] I know. It's going to save me a lot of money, I hope."]
processor = AutoProcessor.from_pretrained(model_checkpoint)
inputs = processor(
text=text,
audio=audio,
generation=False,
output_labels=True,
padding=True,
return_tensors="pt"
).to(torch_device)
model = DiaForConditionalGeneration.from_pretrained(model_checkpoint).to(torch_device)
out = model(**inputs)
out.loss.backward()
此模型由 Jaeyong Sung、Arthur Zucker 和 Anton Vlasjuk 貢獻。原始程式碼可以在這裡找到。
DiaConfig
class transformers.DiaConfig
< 來源 >( encoder_config: typing.Optional[transformers.models.dia.configuration_dia.DiaEncoderConfig] = None decoder_config: typing.Optional[transformers.models.dia.configuration_dia.DiaDecoderConfig] = None norm_eps: float = 1e-05 is_encoder_decoder: bool = True pad_token_id: int = 1025 eos_token_id: int = 1024 bos_token_id: int = 1026 delay_pattern: typing.Optional[list[int]] = None initializer_range: float = 0.02 use_cache: bool = True **kwargs )
引數
- encoder_config (
DiaEncoderConfig
, 可選) — 模型的編碼器部分的配置。如果未提供,將使用預設的DiaEncoderConfig
。 - decoder_config (
DiaDecoderConfig
, 可選) — 模型的解碼器部分的配置。如果未提供,將使用預設的DiaDecoderConfig
。 - norm_eps (
float
, 可選, 預設為 1e-05) — 歸一化層使用的 epsilon 值。 - is_encoder_decoder (
bool
, 可選, 預設為True
) — 指示此模型是否使用編碼器-解碼器架構。 - pad_token_id (
int
, 可選, 預設為 1025) — 填充令牌 ID。 - eos_token_id (
int
, 可選, 預設為 1024) — 流結束令牌 ID。 - bos_token_id (
int
, 可選, 預設為 1026) — 流開始令牌 ID。 - delay_pattern (
list[int]
, 可選, 預設為[0, 8, 9, 10, 11, 12, 13, 14, 15]
) — 解碼器的延遲模式。此列表的長度必須與decoder_config.num_channels
匹配。 - initializer_range (
float
, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。 - use_cache (
bool
, 可選, 預設為True
) — 模型是否應返回最後一個鍵/值注意力(並非所有模型都使用)。
這是用於儲存 DiaModel 配置的配置類。它用於根據指定引數例項化 Dia 模型,定義模型架構。使用預設值例項化配置將生成與 nari-labs/Dia-1.6B 架構類似的配置。
配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。
示例
>>> from transformers import DiaConfig, DiaModel
>>> # Initializing a DiaConfig with default values
>>> configuration = DiaConfig()
>>> # Initializing a DiaModel (with random weights) from the configuration
>>> model = DiaModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
預設使用音訊配置,因為在這種情況下,它通常是文字主幹的解碼器。
DiaDecoderConfig
class transformers.DiaDecoderConfig
< 來源 >( max_position_embeddings: int = 3072 num_hidden_layers: int = 18 hidden_size: int = 2048 intermediate_size: int = 8192 num_attention_heads: int = 16 num_key_value_heads: int = 4 head_dim: int = 128 cross_num_attention_heads: int = 16 cross_head_dim: int = 128 cross_num_key_value_heads: int = 16 cross_hidden_size: int = 1024 norm_eps: float = 1e-05 vocab_size: int = 1028 hidden_act: str = 'silu' num_channels: int = 9 rope_theta: float = 10000.0 rope_scaling: typing.Optional[dict] = None initializer_range: float = 0.02 use_cache: bool = True is_encoder_decoder: bool = True **kwargs )
引數
- max_position_embeddings (
int
, 可選, 預設為 3072) — 此模型可能使用的最大序列長度。 - num_hidden_layers (
int
, 可選, 預設為 18) — Transformer 解碼器中的隱藏層數量。 - hidden_size (
int
, 可選, 預設為 2048) — 解碼器層和池化層的維度。 - intermediate_size (
int
, 可選, 預設為 8192) — Transformer 解碼器中“中間”(通常稱為前饋)層的維度。 - num_attention_heads (
int
, 可選, 預設為 16) — Transformer 解碼器中每個注意力層的注意力頭數量。 - num_key_value_heads (
int
, 可選, 預設為 4) — Transformer 解碼器中每個注意力層的鍵和值頭數量。 - head_dim (
int
, 可選, 預設為 128) — 注意力頭的維度。 - cross_num_attention_heads (
int
, 可選, 預設為 16) — Transformer 解碼器中每個交叉注意力層的注意力頭數量。 - cross_head_dim (
int
, 可選, 預設為 128) — 交叉注意力頭的維度。 - cross_num_key_value_heads (
int
, 可選, 預設為 16) — Transformer 解碼器中每個交叉注意力層的鍵和值頭數量。 - cross_hidden_size (
int
, 可選, 預設為 1024) — 交叉注意力層的維度。 - norm_eps (
float
, 可選, 預設為 1e-05) — 歸一化層使用的 epsilon 值。 - vocab_size (
int
, 可選, 預設為 1028) — Dia 模型的詞彙表大小。定義了呼叫 DiaModel 時透過inputs_ids
表示的不同令牌的數量。 - hidden_act (
str
或function
, 可選, 預設為"silu"
) — 解碼器中的非線性啟用函式(函式或字串)。如果為字串,則支援"gelu"
、"relu"
、"swish"
和"gelu_new"
。 - num_channels (
int
, 可選, 預設為 9) — Dia 解碼器的通道數。 - rope_theta (
float
, 可選, 預設為 10000.0) — RoPE 嵌入的基本週期。 - rope_scaling (
dict
, 可選) — 包含 RoPE 嵌入縮放配置的字典。注意:如果您應用新的 RoPE 型別並期望模型在更長的max_position_embeddings
上工作,我們建議您相應地更新此值。預期內容:rope_type
(str
):要使用的 RoPE 子變體。可以是 [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘llama3’] 之一,其中 ‘default’ 是原始 RoPE 實現。factor
(float
, 可選):除 ‘default’ 外所有 RoPE 型別都使用。應用於 RoPE 嵌入的縮放因子。在大多數縮放型別中,x 的factor
將使模型能夠處理長度為 x * 原始最大預訓練長度的序列。original_max_position_embeddings
(int
, 可選):與 ‘dynamic’、‘longrope’ 和 ‘llama3’ 一起使用。預訓練期間使用的原始最大位置嵌入。attention_factor
(float
, 可選):與 ‘yarn’ 和 ‘longrope’ 一起使用。應用於注意力計算的縮放因子。如果未指定,則預設為實現建議的值,使用factor
欄位推斷建議值。beta_fast
(float
, 可選):僅與 ‘yarn’ 一起使用。用於設定線性斜坡函式中外推(僅)邊界的引數。如果未指定,則預設為 32。beta_slow
(float
, 可選):僅與 ‘yarn’ 一起使用。用於設定線性斜坡函式中內插(僅)邊界的引數。如果未指定,則預設為 1。short_factor
(List[float]
, 可選):僅與 ‘longrope’ 一起使用。應用於短上下文(<original_max_position_embeddings
)的縮放因子。必須是長度與隱藏大小除以注意力頭數除以 2 相同的數字列表。long_factor
(List[float]
, 可選):僅與 ‘longrope’ 一起使用。應用於長上下文(<original_max_position_embeddings
)的縮放因子。必須是長度與隱藏大小除以注意力頭數除以 2 相同的數字列表。low_freq_factor
(float
, 可選):僅與 ‘llama3’ 一起使用。應用於 RoPE 低頻分量的縮放因子。high_freq_factor
(float
, 可選):僅與 ‘llama3’ 一起使用。應用於 RoPE 高頻分量的縮放因子。 - initializer_range (
float
, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。 - use_cache (
bool
, 可選, 預設為True
) — 模型是否應返回最後一個鍵/值注意力(並非所有模型都使用)。 - is_encoder_decoder (
bool
, 可選, 預設為True
) — 指示此模型是編碼器-解碼器架構的一部分。
這是用於儲存 DiaDecoder
配置的配置類。它用於根據指定引數例項化 Dia 解碼器,定義解碼器架構。
配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。
DiaEncoderConfig
class transformers.DiaEncoderConfig
< 來源 >( max_position_embeddings: int = 1024 num_hidden_layers: int = 12 hidden_size: int = 1024 num_attention_heads: int = 16 num_key_value_heads: int = 16 head_dim: int = 128 intermediate_size: int = 4096 norm_eps: float = 1e-05 vocab_size: int = 256 hidden_act: str = 'silu' rope_theta: float = 10000.0 rope_scaling: typing.Optional[dict] = None initializer_range: float = 0.02 **kwargs )
引數
- max_position_embeddings (
int
, 可選, 預設為 1024) — 此模型可能使用的最大序列長度。 - num_hidden_layers (
int
, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。 - hidden_size (
int
, 可選, 預設為 1024) — 編碼器層和池化層(pooler layer)的維度。 - num_attention_heads (
int
, 可選, 預設為 16) — Transformer 編碼器中每個注意力層的注意力頭數量。 - num_key_value_heads (
int
, 可選, 預設為 16) — Transformer 編碼器中每個注意力層的鍵和值頭數量。 - head_dim (
int
, 可選, 預設為 128) — 注意力頭的維度。 - intermediate_size (
int
, 可選, 預設為 4096) — Transformer 編碼器中“中間”(通常稱為前饋)層的維度。 - norm_eps (
float
, 可選, 預設為 1e-05) — 歸一化層使用的 epsilon 值。 - vocab_size (
int
, 可選, 預設為 256) — Dia 模型的詞彙量大小。定義了呼叫 DiaModel 時傳入的inputs_ids
可以表示的不同詞元的數量。 - hidden_act (
str
或function
, 可選, 預設為"silu"
) — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果是字串,支援"gelu"
、"relu"
、"swish"
和"gelu_new"
。 - rope_theta (
float
, 可選, 預設為 10000.0) — RoPE 嵌入的基礎週期。 - rope_scaling (
dict
, 可選) — 包含 RoPE 嵌入縮放配置的字典。注意:如果你應用了新的 RoPE 型別並且期望模型在更長的max_position_embeddings
上工作,我們建議你相應地更新此值。預期內容:rope_type
(str
):要使用的 RoPE 子變體。可以是 ['default', 'linear', 'dynamic', 'yarn', 'longrope', 'llama3'] 之一,其中 'default' 是原始的 RoPE 實現。factor
(float
, 可選):除 'default' 外所有 RoPE 型別都使用。應用於 RoPE 嵌入的縮放因子。在大多數縮放型別中,因子 x 將使模型能夠處理長度為 x * 原始最大預訓練長度的序列。original_max_position_embeddings
(int
, 可選):與 'dynamic'、'longrope' 和 'llama3' 一起使用。預訓練期間使用的原始最大位置嵌入。attention_factor
(float
, 可選):與 'yarn' 和 'longrope' 一起使用。應用於注意力計算的縮放因子。如果未指定,它將預設為實現推薦的值,使用factor
欄位推斷建議值。beta_fast
(float
, 可選):僅與 'yarn' 一起使用。設定線性斜坡函式中外推(僅)邊界的引數。如果未指定,預設為 32。beta_slow
(float
, 可選):僅與 'yarn' 一起使用。設定線性斜坡函式中插值(僅)邊界的引數。如果未指定,預設為 1。short_factor
(List[float]
, 可選):僅與 'longrope' 一起使用。應用於短上下文(<original_max_position_embeddings
)的縮放因子。必須是長度與隱藏大小除以注意力頭數除以 2 相同的一系列數字。long_factor
(List[float]
, 可選):僅與 'longrope' 一起使用。應用於長上下文(<original_max_position_embeddings
)的縮放因子。必須是長度與隱藏大小除以注意力頭數除以 2 相同的一系列數字。low_freq_factor
(float
, 可選):僅與 'llama3' 一起使用。應用於 RoPE 低頻分量的縮放因子。high_freq_factor
(float
, 可選):僅與 'llama3' 一起使用。應用於 RoPE 高頻分量的縮放因子。 - initializer_range (
float
, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
這是用於儲存 DiaEncoder
配置的配置類。它根據指定的引數例項化一個 Dia 編碼器,定義了編碼器架構。
配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請參閱 PretrainedConfig 的文件。
DiaTokenizer
class transformers.DiaTokenizer
< source >( pad_token: typing.Optional[str] = '<pad>' unk_token: typing.Optional[str] = '<pad>' max_length: typing.Optional[int] = 1024 offset: int = 0 **kwargs )
構建一個 Dia 分詞器。除了特殊詞元 [S1]
和 [S2]
外,Dia 只是簡單地使用原始位元組 utf-8 編碼。
此分詞器繼承自 PreTrainedTokenizerFast,其中包含了大多數主要方法。使用者應參閱此超類以獲取有關這些方法的更多資訊。
__call__
< source >( text: typing.Union[str, list[str], list[list[str]], NoneType] = None text_pair: typing.Union[str, list[str], list[list[str]], NoneType] = None text_target: typing.Union[str, list[str], list[list[str]], NoneType] = None text_pair_target: typing.Union[str, list[str], list[list[str]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy, NoneType] = None max_length: typing.Optional[int] = None stride: int = 0 is_split_into_words: bool = False pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → BatchEncoding
引數
- text (
str
,list[str]
,list[list[str]]
, 可選) — 要編碼的序列或序列批次。每個序列可以是字串或字串列表(預分詞字串)。如果序列以字串列表(預分詞)形式提供,您必須設定is_split_into_words=True
(以消除與序列批次之間的歧義)。 - text_pair (
str
,list[str]
,list[list[str]]
, 可選) — 要編碼的序列或序列批次。每個序列可以是字串或字串列表(預分詞字串)。如果序列以字串列表(預分詞)形式提供,您必須設定is_split_into_words=True
(以消除與序列批次之間的歧義)。 - text_target (
str
,list[str]
,list[list[str]]
, 可選) — 作為目標文字編碼的序列或序列批次。每個序列可以是字串或字串列表(預分詞字串)。如果序列以字串列表(預分詞)形式提供,您必須設定is_split_into_words=True
(以消除與序列批次之間的歧義)。 - text_pair_target (
str
,list[str]
,list[list[str]]
, 可選) — 作為目標文字編碼的序列或序列批次。每個序列可以是字串或字串列表(預分詞字串)。如果序列以字串列表(預分詞)形式提供,您必須設定is_split_into_words=True
(以消除與序列批次之間的歧義)。 - add_special_tokens (
bool
, 可選, 預設為True
) — 編碼序列時是否新增特殊詞元。這將使用底層的PretrainedTokenizerBase.build_inputs_with_special_tokens
函式,該函式定義了哪些詞元會自動新增到輸入 ID 中。如果您想自動新增bos
或eos
詞元,這會很有用。 - padding (
bool
,str
或 PaddingStrategy, 可選, 預設為False
) — 啟用和控制填充。接受以下值:True
或'longest'
:填充到批次中最長的序列(如果只提供一個序列,則不填充)。'max_length'
:填充到由引數max_length
指定的最大長度,如果未提供該引數,則填充到模型的最大可接受輸入長度。False
或'do_not_pad'
(預設):不填充(即,可以輸出具有不同長度序列的批次)。
- truncation (
bool
,str
或 TruncationStrategy, 可選, 預設為False
) — 啟用和控制截斷。接受以下值:True
或'longest_first'
:截斷到由引數max_length
指定的最大長度,如果未提供該引數,則截斷到模型的最大可接受輸入長度。如果提供了一對序列(或一批對序列),這將逐個詞元截斷,從對中最長的序列中移除一個詞元。'only_first'
:截斷到由引數max_length
指定的最大長度,如果未提供該引數,則截斷到模型的最大可接受輸入長度。如果提供了一對序列(或一批對序列),這將只截斷一對中的第一個序列。'only_second'
:截斷到由引數max_length
指定的最大長度,如果未提供該引數,則截斷到模型的最大可接受輸入長度。如果提供了一對序列(或一批對序列),這將只截斷一對中的第二個序列。False
或'do_not_truncate'
(預設):不截斷(即,可以輸出序列長度大於模型最大可接受輸入大小的批次)。
- max_length (
int
, 可選) — 透過截斷/填充引數之一控制要使用的最大長度。如果未設定或設定為
None
,這將使用預定義的模型最大長度(如果截斷/填充引數之一需要最大長度)。如果模型沒有特定的最大輸入長度(如 XLNet),則截斷/填充到最大長度將被停用。 - stride (
int
, 可選, 預設為 0) — 如果設定為一個數字並與max_length
一起使用,當return_overflowing_tokens=True
時返回的溢位詞元將包含截斷序列末尾的一些詞元,以在截斷序列和溢位序列之間提供一些重疊。此引數的值定義了重疊詞元的數量。 - is_split_into_words (
bool
, 可選, 預設為False
) — 輸入是否已經預分詞(例如,按單詞分割)。如果設定為True
,分詞器假定輸入已按單詞分割(例如,透過空格分割),然後會將其分詞。這對於命名實體識別或詞元分類很有用。 - pad_to_multiple_of (
int
, 可選) — 如果設定,將序列填充到提供值的倍數。需要啟用padding
。這對於在計算能力>= 7.5
(Volta) 的 NVIDIA 硬體上啟用 Tensor Cores 特別有用。 - padding_side (
str
, 可選) — 模型應該應用填充的側面。應在 ['right', 'left'] 之間選擇。預設值取自同名的類屬性。 - return_tensors (
str
或 TensorType, 可選) — 如果設定,將返回張量而不是 Python 整數列表。可接受的值為:'tf'
:返回 TensorFlowtf.constant
物件。'pt'
:返回 PyTorchtorch.Tensor
物件。'np'
:返回 Numpynp.ndarray
物件。
- return_token_type_ids (
bool
, 可選) — 是否返回詞元型別 ID。如果保留預設值,將根據特定分詞器的預設值(由return_outputs
屬性定義)返回詞元型別 ID。 - return_attention_mask (
bool
, 可選) — 是否返回注意力掩碼。如果保留預設值,將根據特定分詞器的預設值(由return_outputs
屬性定義)返回注意力掩碼。 - return_overflowing_tokens (
bool
, 可選, 預設為False
) — 是否返回溢位詞元序列。如果提供了輸入 ID 的一對序列(或一批對序列)且truncation_strategy = longest_first
或True
,則會引發錯誤,而不是返回溢位詞元。 - return_special_tokens_mask (
bool
, 可選, 預設為False
) — 是否返回特殊詞元掩碼資訊。 - return_offsets_mapping (
bool
, 可選, 預設為False
) — 是否返回每個詞元的(char_start, char_end)
。這僅在繼承自 PreTrainedTokenizerFast 的快速分詞器中可用,如果使用 Python 的分詞器,此方法將引發
NotImplementedError
。 - return_length (
bool
, 可選, 預設為False
) — 是否返回編碼輸入的長度。 - verbose (
bool
, 可選, 預設為True
) — 是否列印更多資訊和警告。 - **kwargs — 傳遞給
self.tokenize()
方法的引數
一個 BatchEncoding,包含以下欄位:
-
input_ids — 要輸入到模型中的標記 ID 列表。
-
token_type_ids — 要輸入到模型中的標記型別 ID 列表(當
return_token_type_ids=True
或如果 *“token_type_ids”* 在self.model_input_names
中時)。 -
attention_mask — 指定模型應關注哪些標記的索引列表(當
return_attention_mask=True
或如果 *“attention_mask”* 在self.model_input_names
中時)。 -
overflowing_tokens — 溢位標記序列列表(當指定
max_length
且return_overflowing_tokens=True
時)。 -
num_truncated_tokens — 截斷標記的數量(當指定
max_length
且return_overflowing_tokens=True
時)。 -
special_tokens_mask — 0 和 1 的列表,其中 1 表示新增的特殊標記,0 表示常規序列標記(當
add_special_tokens=True
且return_special_tokens_mask=True
時)。 -
length — 輸入的長度(當
return_length=True
時)
將一個或多個序列或一對或多對序列標記化並準備用於模型的主要方法。
DiaFeatureExtractor
class transformers.DiaFeatureExtractor
< source >( feature_size: int = 1 sampling_rate: int = 16000 padding_value: float = 0.0 hop_length: int = 512 **kwargs )
構建一個 Dia 特徵提取器。
此特徵提取器繼承自 SequenceFeatureExtractor,其中包含了大多數主要方法。使用者應參閱此超類以獲取有關這些方法的更多資訊。
__call__
< source >( raw_audio: typing.Union[numpy.ndarray, list[float], list[numpy.ndarray], list[list[float]]] padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy, NoneType] = None truncation: typing.Optional[bool] = False max_length: typing.Optional[int] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None sampling_rate: typing.Optional[int] = None )
引數
- raw_audio (
np.ndarray
,list[float]
,list[np.ndarray]
,list[list[float]]
) — 要處理的序列或序列批次。每個序列可以是 NumPy 陣列、浮點值列表、NumPy 陣列列表或浮點值列表的列表。NumPy 陣列的形狀必須為(num_samples,)
(單聲道音訊,feature_size = 1
)或(2, num_samples)
(立體聲音訊,feature_size = 2
)。 - padding (
bool
,str
或 PaddingStrategy, 可選, 預設為True
) — 在返回序列中選擇一種填充策略(根據模型的填充側和填充索引):True
或'longest'
:填充到批次中最長的序列(如果只提供一個序列,則不填充)。'max_length'
:填充到由引數max_length
指定的最大長度,如果未提供該引數,則填充到模型的最大可接受輸入長度。False
或'do_not_pad'
(預設):不填充(即,可以輸出具有不同長度序列的批次)。
- truncation (
bool
, optional, 預設為False
) — 啟用截斷,將長度超過max_length
的輸入序列截斷為max_length
。 - max_length (
int
, optional) — 返回列表的最大長度和可選的填充長度(見上文)。 - return_tensors (
str
或 TensorType, optional, 預設為 'pt') — 如果設定,將返回張量而不是 Python 整數列表。可接受的值為:'tf'
: 返回 TensorFlowtf.constant
物件。'pt'
: 返回 PyTorchtorch.Tensor
物件。'np'
: 返回 Numpynp.ndarray
物件。
- sampling_rate (
int
, optional) —audio
輸入的取樣率。強烈建議在轉發呼叫時傳遞sampling_rate
以防止靜默錯誤。
對一個或多個序列進行特徵化併為模型準備的主方法。
DiaProcessor
class transformers.DiaProcessor
< source >( feature_extractor tokenizer audio_tokenizer )
引數
- feature_extractor (
DiaFeatureExtractor
) — DiaFeatureExtractor 的例項。特徵提取器是必需的輸入。 - tokenizer (
DiaTokenizer
) — DiaTokenizer 的例項。分詞器是必需的輸入。 - audio_tokenizer (
DacModel
) — DacModel 的例項,用於將音訊編碼/解碼為碼本。這是必需的輸入。
構建一個 Dia 處理器,它將 DiaFeatureExtractor、DiaTokenizer 和 DacModel 包裝成一個單一的處理器。它繼承了音訊特徵提取、分詞器和音訊編碼/解碼功能。有關更多資訊,請參閱 call()、~DiaProcessor.encode
和 decode()。
__call__
< source >( text: typing.Union[str, list[str]] audio: typing.Union[numpy.ndarray, ForwardRef('torch.Tensor'), list[numpy.ndarray], tuple[numpy.ndarray], list['torch.Tensor'], tuple['torch.Tensor'], NoneType] = None output_labels: typing.Optional[bool] = False **kwargs: typing_extensions.Unpack[transformers.models.dia.processing_dia.DiaProcessorKwargs] )
準備文字和音訊以作為模型輸入的主要方法。audio
引數轉發至 DiaFeatureExtractor 的 call(),並隨後轉發至 DacModel 的 encode()。text
引數轉發至 call()。有關更多資訊,請參閱上述方法的文件字串。
batch_decode
< source >( decoder_input_ids: torch.Tensor audio_prompt_len: typing.Optional[int] = None **kwargs: typing_extensions.Unpack[transformers.models.dia.processing_dia.DiaProcessorKwargs] )
透過 audio_tokenizer
將一批音訊碼本序列解碼為相應的音訊波形。有關更多資訊,請參閱 decode()。
decode
< source >( decoder_input_ids: torch.Tensor audio_prompt_len: typing.Optional[int] = None **kwargs: typing_extensions.Unpack[transformers.models.dia.processing_dia.DiaProcessorKwargs] )
透過 audio_tokenizer
將單個音訊碼本序列解碼為相應的音訊波形。有關更多資訊,請參閱 decode() 和 batch_decode()。
DiaModel
class transformers.DiaModel
< source >( config: DiaConfig )
引數
- config (DiaConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化並不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。
Dia 模型只輸出原始隱藏狀態,頂部沒有任何特定頭部。
此模型繼承自 PreTrainedModel。請檢視超類文件,瞭解庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、剪枝頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。請將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件中所有與通用用法和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_position_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Union[transformers.modeling_outputs.BaseModelOutput, tuple, NoneType] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **kwargs ) → transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 詞彙表中輸入序列 token 的索引。填充預設會被忽略。索引可以使用 AutoTokenizer 獲取。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 掩碼,用於避免對填充 token 索引執行注意力。掩碼值選擇在[0, 1]
:- 1 表示 未被掩碼 的 token,
- 0 表示 被掩碼 的 token。
- decoder_input_ids (
torch.LongTensor
,形狀為 `(batch_size * num_codebooks, target_sequence_length) — - 或 (batch_size, target_sequence_length, num_codebooks),可選) —
-
(batch_size * num_codebooks, target_sequence_length): 對應於音訊輸入碼本被展平到批處理維度的通用用例。這也與用於計算損失的展平音訊 logits 對齊。
-
(batch_size, sequence_length, num_codebooks): 對應於 Dia 內部用於更高效計算嵌入和後續步驟的形狀。
如果未提供
decoder_input_ids
,它將建立一個形狀為(batch_size, 1, num_codebooks)
的bos_token_id
張量。索引可以使用 DiaProcessor 獲取。有關詳細資訊,請參閱 DiaProcessor.call()。 -
- decoder_position_ids (
torch.LongTensor
,形狀為(batch_size, target_sequence_length)
) — 每個輸入序列 token 在位置嵌入中的位置索引。用於計算直到config.decoder_config.max_position_embeddings
的位置嵌入。 - decoder_attention_mask (
torch.LongTensor
,形狀為(batch_size, target_sequence_length)
,可選) — 掩碼,用於避免對某些 token 索引執行注意力。預設情況下,將使用因果掩碼,以確保模型只能檢視以前的輸入以預測未來。 - encoder_outputs (
Union[~modeling_outputs.BaseModelOutput, tuple, NoneType]
) — 元組包含 (last_hidden_state
, 可選:hidden_states
, 可選:attentions
)last_hidden_state
的形狀為(batch_size, sequence_length, hidden_size)
,可選) 是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力。 - past_key_values (
~cache_utils.EncoderDecoderCache
, 可選) — 預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於加速順序解碼。這通常包括模型在解碼上一階段返回的past_key_values
,當use_cache=True
或config.use_cache=True
時。允許兩種格式:
- Cache 例項,請參閱我們的 kv 快取指南;
- 長度為
config.n_layers
的tuple(torch.FloatTensor)
元組,每個元組包含 2 個形狀為(batch_size, num_heads, sequence_length, embed_size_per_head)
的張量。這也稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞
past_key_values
,將返回舊版快取格式。如果使用
past_key_values
,使用者可以選擇僅輸入形狀為(batch_size, 1)
的最新input_ids
(那些未將其過去鍵值狀態提供給此模型的)而不是形狀為(batch_size, sequence_length)
的所有input_ids
。 - use_cache (
bool
, 可選) — 如果設定為True
,則返回past_key_values
鍵值狀態,可用於加速解碼(參見past_key_values
)。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊,請參閱返回張量下的hidden_states
。 - cache_position (
torch.LongTensor
,形狀為(sequence_length)
,可選) — 表示輸入序列 token 在序列中位置的索引。與position_ids
不同,此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。
返回
transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.Seq2SeqModelOutput 或一個 torch.FloatTensor
元組(如果傳遞 return_dict=False
或當 config.return_dict=False
時),包含各種元素,具體取決於配置(None
)和輸入。
-
last_hidden_state (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
) — 模型解碼器最後一層輸出的隱藏狀態序列。如果使用了
past_key_values
,則只輸出形狀為(batch_size, 1, hidden_size)
的序列的最後一個隱藏狀態。 -
past_key_values (
EncoderDecoderCache
, 可選,當傳遞use_cache=True
或當config.use_cache=True
時返回) — 它是 EncoderDecoderCache 例項。有關詳細資訊,請參閱我們的 kv 快取指南。包含預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於(參見
past_key_values
輸入)加速順序解碼。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
元組(如果模型有嵌入層,則一個用於嵌入輸出,加上一個用於每一層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。解碼器在每個層輸出的隱藏狀態,加上可選的初始嵌入輸出。
-
decoder_attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
元組(每一層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。
-
cross_attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
元組(每一層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。
-
encoder_last_hidden_state (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
,可選) — 模型編碼器最後一層輸出的隱藏狀態序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
元組(如果模型有嵌入層,則一個用於嵌入輸出,加上一個用於每一層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。編碼器在每個層輸出的隱藏狀態,加上可選的初始嵌入輸出。
-
encoder_attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
元組(每一層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。
DiaModel 的 forward 方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的實現需要在該函式內部定義,但之後應呼叫 Module
例項而不是此函式,因為前者會處理執行預處理和後處理步驟,而後者會默默忽略它們。
DiaForConditionalGeneration
class transformers.DiaForConditionalGeneration
< source >( config: DiaConfig )
引數
- config (DiaConfig) — 包含模型所有引數的模型配置類。使用配置檔案初始化並不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法來載入模型權重。
Dia 模型由一個(位元組)文字編碼器和音訊解碼器組成,頂部帶有一個預測頭。
此模型繼承自 PreTrainedModel。請檢視超類文件,瞭解庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、剪枝頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。請將其作為常規 PyTorch 模組使用,並參考 PyTorch 文件中所有與通用用法和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_position_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Union[transformers.modeling_outputs.BaseModelOutput, tuple, NoneType] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None labels: typing.Optional[torch.LongTensor] = None cache_position: typing.Optional[torch.LongTensor] = None **kwargs ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 詞彙表中輸入序列 token 的索引。填充預設會被忽略。索引可以使用 AutoTokenizer 獲取。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.LongTensor
,形狀為(batch_size, sequence_length)
,可選) — 掩碼,用於避免對填充 token 索引執行注意力。掩碼值選擇在[0, 1]
:- 1 表示 未被掩碼 的 token,
- 0 表示 被掩碼 的 token。
- decoder_input_ids (
torch.LongTensor
,形狀為 `(batch_size * num_codebooks, target_sequence_length) — - 或 (batch_size, target_sequence_length, num_codebooks),可選) —
-
(batch_size * num_codebooks, target_sequence_length): 對應於音訊輸入碼本被展平到批處理維度的通用用例。這也與用於計算損失的展平音訊 logits 對齊。
-
(batch_size, sequence_length, num_codebooks): 對應於 Dia 內部用於更高效計算嵌入和後續步驟的形狀。
如果未提供
decoder_input_ids
,它將建立一個形狀為(batch_size, 1, num_codebooks)
的bos_token_id
張量。索引可以使用 DiaProcessor 獲取。有關詳細資訊,請參閱 DiaProcessor.call()。 -
- decoder_position_ids (
torch.LongTensor
,形狀為(batch_size, target_sequence_length)
) — 每個輸入序列 token 在位置嵌入中的位置索引。用於計算直到config.decoder_config.max_position_embeddings
的位置嵌入。 - decoder_attention_mask (
torch.LongTensor
形狀為(batch_size, target_sequence_length)
, 可選) — 用於避免在某些 token 索引上執行注意力操作的掩碼。預設情況下,將使用因果掩碼,以確保模型只能檢視先前的輸入,從而預測未來。 - encoder_outputs (
Union[~modeling_outputs.BaseModelOutput, tuple, NoneType]
) — 元組包含 (last_hidden_state
, 可選:hidden_states
, 可選:attentions
)last_hidden_state
形狀為(batch_size, sequence_length, hidden_size)
, 可選) 是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力。 - past_key_values (
~cache_utils.EncoderDecoderCache
, 可選) — 預計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於加速順序解碼。這通常包括模型在解碼上一階段返回的past_key_values
,當use_cache=True
或config.use_cache=True
時。允許兩種格式:
- Cache 例項,請參閱我們的 kv 快取指南;
tuple(torch.FloatTensor)
的元組,長度為config.n_layers
,每個元組包含 2 個形狀為(batch_size, num_heads, sequence_length, embed_size_per_head)
的張量)。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果未傳入
past_key_values
,則將返回傳統快取格式。如果使用
past_key_values
,使用者可以選擇只輸入形狀為(batch_size, 1)
的最後一個input_ids
(那些沒有將過去鍵值狀態提供給此模型的輸入),而不是形狀為(batch_size, sequence_length)
的所有input_ids
。 - use_cache (
bool
, 可選) — 如果設定為True
,則返回past_key_values
鍵值狀態,可用於加速解碼(請參閱past_key_values
)。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳細資訊請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳細資訊請參閱返回張量下的hidden_states
。 - labels (
torch.LongTensor
形狀為(batch_size * num_codebooks,)
, 可選) — 用於計算掩碼語言模型損失的標籤。索引應在[0, ..., config.decoder_config.vocab_size - 1]
或 -100 之間。索引設定為-100
的 token 將被忽略(掩碼)。 - cache_position (
torch.LongTensor
形狀為(sequence_length)
, 可選) — 表示輸入序列中 token 位置的索引。與position_ids
不同,此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。
返回
transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.Seq2SeqLMOutput 或一個 torch.FloatTensor
元組(如果傳入 return_dict=False
或 config.return_dict=False
),包含根據配置 (None
) 和輸入而定的各種元素。
-
loss (
torch.FloatTensor
,形狀為(1,)
,可選,當提供labels
時返回) — 語言建模損失。 -
logits (形狀為
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。 -
past_key_values (
EncoderDecoderCache
, 可選,當傳遞use_cache=True
或當config.use_cache=True
時返回) — 它是 EncoderDecoderCache 例項。有關詳細資訊,請參閱我們的 kv 快取指南。包含預先計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於(參見
past_key_values
輸入)加速順序解碼。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
元組(如果模型有嵌入層,則一個用於嵌入輸出,加上一個用於每一層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
-
decoder_attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
元組(每一層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。解碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。
-
cross_attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
元組(每一層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。解碼器交叉注意力層的注意力權重,在注意力 softmax 之後,用於計算交叉注意力頭中的加權平均。
-
encoder_last_hidden_state (
torch.FloatTensor
,形狀為(batch_size, sequence_length, hidden_size)
,可選) — 模型編碼器最後一層輸出的隱藏狀態序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_hidden_states=True
或當config.output_hidden_states=True
時返回) —torch.FloatTensor
元組(如果模型有嵌入層,則一個用於嵌入輸出,加上一個用於每一層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
-
encoder_attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或當config.output_attentions=True
時返回) —torch.FloatTensor
元組(每一層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。編碼器的注意力權重,在注意力 softmax 之後,用於計算自注意力頭中的加權平均。
DiaForConditionalGeneration 前向方法,覆蓋 __call__
特殊方法。
儘管前向傳播的實現需要在該函式內部定義,但之後應呼叫 Module
例項而不是此函式,因為前者會處理執行預處理和後處理步驟,而後者會默默忽略它們。
生成
< 來源 >( inputs: typing.Optional[torch.Tensor] = None generation_config: typing.Optional[transformers.generation.configuration_utils.GenerationConfig] = None logits_processor: typing.Optional[transformers.generation.logits_process.LogitsProcessorList] = None stopping_criteria: typing.Optional[transformers.generation.stopping_criteria.StoppingCriteriaList] = None prefix_allowed_tokens_fn: typing.Optional[typing.Callable[[int, torch.Tensor], list[int]]] = None synced_gpus: typing.Optional[bool] = None assistant_model: typing.Optional[ForwardRef('PreTrainedModel')] = None streamer: typing.Optional[ForwardRef('BaseStreamer')] = None negative_prompt_ids: typing.Optional[torch.Tensor] = None negative_prompt_attention_mask: typing.Optional[torch.Tensor] = None use_model_defaults: typing.Optional[bool] = None custom_generate: typing.Optional[str] = None **kwargs )