CSM

概述

會話語音模型（CSM）是由 Sesame 釋出的第一個開源的上下文文字轉語音模型。它旨在生成帶或不帶會話上下文的自然語音。此上下文通常包含說話者之間的多輪對話，表示為文字序列和相應的口語音訊。

模型架構： CSM 由兩個 LLaMA 風格的自迴歸 Transformer 解碼器組成：一個骨幹解碼器（用於預測第一個碼本 token）和一個深度解碼器（用於生成其餘 token）。它使用 Kyutai 引入的預訓練編解碼器模型 Mimi，將語音編碼成離散的碼本 token，然後將其解碼迴音頻。

原始的 csm-1b 檢查點可在 Hugging Face 的 Sesame 組織中找到。

使用技巧

不帶會話上下文

CSM 可用於從文字提示生成語音

import torch
from transformers import CsmForConditionalGeneration, AutoProcessor

model_id = "sesame/csm-1b"
device = "cuda" if torch.cuda.is_available() else "cpu"

# load the model and the processor
processor = AutoProcessor.from_pretrained(model_id)
model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=device)

# prepare the inputs
text = "[0]The past is just a story we tell ourselves." # `[0]` for speaker id 0
inputs = processor(text, add_special_tokens=True).to(device)

# another equivalent way to prepare the inputs
conversation = [
    {"role": "0", "content": [{"type": "text", "text": "The past is just a story we tell ourselves."}]},
]
inputs = processor.apply_chat_template(
    conversation,
    tokenize=True,
    return_dict=True,
).to(device)

# infer the model
audio = model.generate(**inputs, output_audio=True)
processor.save_audio(audio, "example_without_context.wav")

帶會話上下文

CSM 可用於生成給定對話的語音，從而實現語音的一致性和內容感知生成

import torch
from transformers import CsmForConditionalGeneration, AutoProcessor
from datasets import load_dataset, Audio

model_id = "sesame/csm-1b"
device = "cuda" if torch.cuda.is_available() else "cpu"

# load the model and the processor
processor = AutoProcessor.from_pretrained(model_id)
model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=device)

# prepare the inputs
ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
# ensure the audio is 24kHz
ds = ds.cast_column("audio", Audio(sampling_rate=24000))
conversation = []

# 1. context
for text, audio, speaker_id in zip(ds[:4]["text"], ds[:4]["audio"], ds[:4]["speaker_id"]):
    conversation.append(
        {
            "role": f"{speaker_id}",
            "content": [{"type": "text", "text": text}, {"type": "audio", "path": audio["array"]}],
        }
    )

# 2. text prompt
conversation.append({"role": f"{ds[4]['speaker_id']}", "content": [{"type": "text", "text": ds[4]["text"]}]})

inputs = processor.apply_chat_template(
    conversation,
    tokenize=True,
    return_dict=True,
).to(device)

# infer the model
audio = model.generate(**inputs, output_audio=True)
processor.save_audio(audio, "example_with_context.wav")

批次推理

CSM 支援批次推理！

import torch
from transformers import CsmForConditionalGeneration, AutoProcessor
from datasets import load_dataset, Audio

model_id = "sesame/csm-1b"
device = "cuda" if torch.cuda.is_available() else "cpu"

# load the model and the processor
processor = AutoProcessor.from_pretrained(model_id)
model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=device)

# prepare the inputs 
ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
# ensure the audio is 24kHz
ds = ds.cast_column("audio", Audio(sampling_rate=24000))
# here a batch with two prompts
conversation = [
    [
        {
            "role": f"{ds[0]['speaker_id']}",
            "content": [
                {"type": "text", "text": ds[0]["text"]},
                {"type": "audio", "path": ds[0]["audio"]["array"]},
            ],
        },
        {
            "role": f"{ds[1]['speaker_id']}",
            "content": [
                {"type": "text", "text": ds[1]["text"]},
            ],
        },
    ],
    [
        {
            "role": f"{ds[0]['speaker_id']}",
            "content": [
                {"type": "text", "text": ds[0]["text"]},
            ],
        }
    ],
]
inputs = processor.apply_chat_template(
    conversation,
    tokenize=True,
    return_dict=True,
).to(device)

audio = model.generate(**inputs, output_audio=True)
processor.save_audio(audio, [f"speech_batch_idx_{i}.wav" for i in range(len(audio))])

讓模型跑得飛快

CSM 支援 CUDA 圖形的全圖編譯！

import torch
import copy
from transformers import CsmForConditionalGeneration, AutoProcessor
from datasets import load_dataset

model_id = "sesame/csm-1b"
device = "cuda"

# set logs to ensure no recompilation and graph breaks
torch._logging.set_logs(graph_breaks=True, recompiles=True, cudagraphs=True)

# load the model and the processor
processor = AutoProcessor.from_pretrained(model_id)
model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=device)

# use static cache, enabling automatically torch compile with fullgraph and reduce-overhead
model.generation_config.max_length = 250 # big enough to avoid recompilation
model.generation_config.max_new_tokens = None # would take precedence over max_length
model.generation_config.cache_implementation = "static"
model.depth_decoder.generation_config.cache_implementation = "static"

# generation kwargs
gen_kwargs = {
    "do_sample": False,
    "depth_decoder_do_sample": False,
    "temperature": 1.0,
    "depth_decoder_temperature": 1.0,
}

# Define a timing decorator
class TimerContext:
    def __init__(self, name="Execution"):
        self.name = name
        self.start_event = None
        self.end_event = None
        
    def __enter__(self):
        # Use CUDA events for more accurate GPU timing
        self.start_event = torch.cuda.Event(enable_timing=True)
        self.end_event = torch.cuda.Event(enable_timing=True)
        self.start_event.record()
        return self

    def __exit__(self, *args):
        self.end_event.record()
        torch.cuda.synchronize()
        elapsed_time = self.start_event.elapsed_time(self.end_event) / 1000.0
        print(f"{self.name} time: {elapsed_time:.4f} seconds")

# prepare the inputs 
ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")

conversation = [
    {
        "role": f"{ds[0]['speaker_id']}",
        "content": [
            {"type": "text", "text": ds[0]["text"]},
            {"type": "audio", "path": ds[0]["audio"]["array"]},
        ],
    },
    {
        "role": f"{ds[1]['speaker_id']}",
        "content": [
            {"type": "text", "text": ds[1]["text"]},
            {"type": "audio", "path": ds[1]["audio"]["array"]},
        ],
    },
    {
        "role": f"{ds[2]['speaker_id']}",
        "content": [
            {"type": "text", "text": ds[2]["text"]},
        ],
    },
]

padded_inputs_1 = processor.apply_chat_template(
    conversation,
    tokenize=True,
    return_dict=True,
).to(device)

print("\n" + "="*50)
print("First generation - compiling and recording CUDA graphs...")
with TimerContext("First generation"):
    _ = model.generate(**padded_inputs_1, **gen_kwargs)
print("="*50)

print("\n" + "="*50)
print("Second generation - fast !!!")
with TimerContext("Second generation"):
    _ = model.generate(**padded_inputs_1, **gen_kwargs)
print("="*50)

# now with different inputs
conversation = [
    {
        "role": f"{ds[0]['speaker_id']}",
        "content": [
            {"type": "text", "text": ds[2]["text"]},
            {"type": "audio", "path": ds[2]["audio"]["array"]},
        ],
    },
    {
        "role": f"{ds[1]['speaker_id']}",
        "content": [
            {"type": "text", "text": ds[3]["text"]},
            {"type": "audio", "path": ds[3]["audio"]["array"]},
        ],
    },
    {
        "role": f"{ds[2]['speaker_id']}",
        "content": [
            {"type": "text", "text": ds[4]["text"]},
        ],
    },
]
padded_inputs_2 = processor.apply_chat_template(
    conversation,
    tokenize=True,
    return_dict=True,
).to(device)

print("\n" + "="*50)
print("Generation with other inputs!")
with TimerContext("Generation with different inputs"):
    _ = model.generate(**padded_inputs_2, **gen_kwargs)
print("="*50)

訓練

CSM Transformers 整合支援訓練！

from transformers import CsmForConditionalGeneration, AutoProcessor
from datasets import load_dataset, Audio

model_id = "sesame/csm-1b"
device = "cuda"

# load the model and the processor
processor = AutoProcessor.from_pretrained(model_id)
model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=device)
model.train()
model.codec_model.eval()

ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
# ensure the audio is 24kHz
ds = ds.cast_column("audio", Audio(sampling_rate=24000))
conversation = []

# context
for text, audio, speaker_id in zip(ds[:4]["text"], ds[:4]["audio"], ds[:4]["speaker_id"]):
    conversation.append(
        {
            "role": f"{speaker_id}",
            "content": [{"type": "text", "text": text}, {"type": "audio", "path": audio["array"]}],
        }
    )

inputs = processor.apply_chat_template(
    conversation,
    tokenize=True,
    return_dict=True,
    output_labels=True,
).to(device)

out = model(**inputs)
out.loss.backward()

此模型由 Eustache Le Bihan 貢獻。原始程式碼可在此處找到。

CsmConfig

class transformers.CsmConfig

< source >

( num_codebooks = 32 vocab_size = 2051 text_vocab_size = 128256 hidden_size = 2048 intermediate_size = 8192 num_hidden_layers = 16 num_attention_heads = 32 num_key_value_heads = 8 hidden_act = 'silu' max_position_embeddings = 2048 initializer_range = 0.02 rms_norm_eps = 1e-05 use_cache = True pad_token_id = 128002 codebook_pad_token_id = 2050 codebook_eos_token_id = 0 bos_token_id = 128000 eos_token_id = None audio_token_id = 128002 audio_eos_token_id = 128003 rope_theta = 500000 rope_scaling = None attention_bias = False attention_dropout = 0.0 mlp_bias = False head_dim = None tie_codebooks_embeddings = True depth_decoder_config = None codec_config = None **kwargs )

引數

num_codebooks (int, 可選, 預設為 32) — 用於底層編解碼器模型中用於語音分詞的碼本數量。
vocab_size (int, 可選, 預設為 2051) — Csm 模型的詞彙量。定義了每個碼本可以表示的不同音訊 token 的數量。
text_vocab_size (int, 可選, 預設為 128256) — Csm 模型的文字輸入詞彙量。定義了可以表示的不同文字 token 的數量。
hidden_size (int, 可選, 預設為 2048) — 主幹模型隱藏表示的維度。
intermediate_size (int, 可選, 預設為 8192) — 主幹模型 MLP 表示的維度。
num_hidden_layers (int, 可選, 預設為 16) — 主幹模型 Transformer 解碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 32) — 主幹模型 Transformer 解碼器中每個注意力層的注意力頭數量。
num_key_value_heads (int, 可選, 預設為 8) — 用於實現分組查詢注意力 (Grouped Query Attention) 的鍵值頭數量。如果 num_key_value_heads=num_attention_heads，模型將使用多頭注意力 (MHA)；如果 num_key_value_heads=1，模型將使用多查詢注意力 (MQA)；否則，使用 GQA。在將多頭檢查點轉換為 GQA 檢查點時，每個分組的鍵和值頭應透過對該組中所有原始頭進行均值池化來構建。更多詳情，請檢視這篇論文。
hidden_act (str 或 function, 可選, 預設為 "silu") — 主幹模型 Transformer 解碼器中的非線性啟用函式（函式或字串）。
max_position_embeddings (int, 可選, 預設為 2048) — 此模型可能使用的最大序列長度。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
rms_norm_eps (float, 可選, 預設為 1e-05) — rms 歸一化層使用的 epsilon。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。僅在 config.is_decoder=True 時相關。
pad_token_id (int, 可選, 預設為 128002) — 填充 token ID。
codebook_pad_token_id (int, 可選, 預設為 2050) — 碼本 token 的填充 token ID。
codebook_eos_token_id (int, 可選, 預設為 0) — 碼本 token 的流結束 token ID。
bos_token_id (int, 可選, 預設為 128000) — 流開始 token ID。
eos_token_id (int, 可選) — 流結束 token ID。
audio_token_id (int, 可選, 預設為 128002) — 文字輸入中的音訊 token ID。
audio_eos_token_id (int, 可選, 預設為 128003) — 文字輸入中音訊的流結束 token ID。
rope_theta (float, 可選, 預設為 500000) — RoPE 嵌入的基礎週期。
rope_scaling (Dict, 可選, 預設為 {'factor' -- 32.0, 'high_freq_factor': 0.5, 'low_freq_factor': 0.125, 'original_max_position_embeddings': 1024, 'rope_type': 'llama3'})：包含 RoPE 嵌入縮放配置的字典。注意：如果您應用新的 RoPE 型別並期望模型適用於更長的 max_position_embeddings，我們建議您相應地更新此值。預期內容：rope_type (str)：要使用的 RoPE 子變體。可以是 ['default', 'linear', 'dynamic', 'yarn', 'longrope', 'llama3'] 之一，其中 'default' 是原始的 RoPE 實現。factor (float, 可選)：除 'default' 外所有 RoPE 型別均使用。應用於 RoPE 嵌入的縮放因子。在大多數縮放型別中，x 的 factor 將使模型能夠處理長度為 x * 原始預訓練最大長度的序列。original_max_position_embeddings (int, 可選)：與 'dynamic'、'longrope' 和 'llama3' 一起使用。預訓練期間使用的原始最大位置嵌入。attention_factor (float, 可選)：與 'yarn' 和 'longrope' 一起使用。應用於注意力計算的縮放因子。如果未指定，則預設為實現建議的值，使用 factor 欄位推斷建議值。beta_fast (float, 可選)：僅與 'yarn' 一起使用。設定線性斜坡函式中外推（僅）邊界的引數。如果未指定，則預設為 32。beta_slow (float, 可選)：僅與 'yarn' 一起使用。設定線性斜坡函式中插值（僅）邊界的引數。如果未指定，則預設為 1。short_factor (list[float], 可選)：僅與 'longrope' 一起使用。應用於短上下文（< original_max_position_embeddings）的縮放因子。必須是長度與隱藏大小除以注意力頭數再除以 2 相同的數字列表。long_factor (list[float], 可選)：僅與 'longrope' 一起使用。應用於長上下文（< original_max_position_embeddings）的縮放因子。必須是長度與隱藏大小除以注意力頭數再除以 2 相同的數字列表。low_freq_factor (float, 可選)：僅與 'llama3' 一起使用。應用於 RoPE 低頻分量的縮放因子。high_freq_factor (float, 可選)：僅與 'llama3' 一起使用。應用於 RoPE 高頻分量的縮放因子。
attention_bias (bool, 可選, 預設為 False) — 在自注意力過程中，是否在查詢、鍵、值和輸出投影層中使用偏差。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
mlp_bias (bool, 可選, 預設為 False) — 在 MLP 層中的 up_proj、down_proj 和 gate_proj 層是否使用偏差。
head_dim (int, 可選) — 注意力頭維度。如果為 None，將預設為 hidden_size // num_attention_heads。
tie_codebooks_embeddings (bool, 可選, 預設為 True) — 是否將主幹模型的碼本 token 嵌入與深度解碼器的碼本 token 嵌入繫結。
depth_decoder_config (CsmDepthDecoderConfig, 可選) — 深度解碼器的配置。
codec_config (PretrainedConfig, 可選) — 編解碼器的配置。

這是用於儲存 CsmForConditionalGeneration 配置的配置類。它用於根據指定引數例項化 CSM 模型，定義模型架構。使用預設值例項化配置將產生與 csm-1b 類似的配置。

例如 sesame/csm-1b

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

>>> from transformers import CsmForConditionalGeneration, CsmConfig

>>> # Initializing a CsmConfig
>>> configuration = CsmConfig()

>>> # Initializing a model
>>> model = CsmForConditionalGeneration(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

CsmDepthDecoderConfig

class transformers.CsmDepthDecoderConfig

< source >

( num_codebooks = 32 backbone_hidden_size = 2048 vocab_size = 2051 hidden_size = 1024 intermediate_size = 8192 num_hidden_layers = 4 num_attention_heads = 8 num_key_value_heads = 2 hidden_act = 'silu' max_position_embeddings = 33 initializer_range = 0.02 rms_norm_eps = 1e-05 use_cache = True pad_token_id = None bos_token_id = None eos_token_id = None rope_theta = 500000 rope_scaling = None attention_bias = False attention_dropout = 0.0 mlp_bias = False head_dim = None **kwargs )

引數

num_codebooks (int, 可選, 預設為 32) — 用於底層編解碼器模型中用於語音分詞的碼本數量。
backbone_hidden_size (int, 可選, 預設為 2048) — 與此深度解碼器一起使用的主幹模型隱藏表示的維度。
vocab_size (int, 可選, 預設為 2051) — CsmDepthDecoder 模型的詞彙表大小。定義了每個碼本可以表示的不同音訊 token 的數量。
hidden_size (int, 可選, 預設為 1024) — 隱藏表示的維度。
intermediate_size (int, 可選, 預設為 8192) — MLP 表示的維度。
num_hidden_layers (int, 可選, 預設為 4) — Transformer 解碼器中隱藏層的數量。
num_attention_heads (int, 可選, 預設為 8) — Transformer 解碼器中每個注意力層的注意力頭數量。
num_key_value_heads (int, 可選, 預設為 2) — 用於實現分組查詢注意力 (Grouped Query Attention) 的鍵值頭數量。如果 num_key_value_heads=num_attention_heads，模型將使用多頭注意力 (MHA)；如果 num_key_value_heads=1，模型將使用多查詢注意力 (MQA)；否則使用 GQA。將多頭檢查點轉換為 GQA 檢查點時，每個組的鍵和值頭應透過對其組內的所有原始頭進行均值池化來構建。更多詳細資訊，請檢視這篇論文。如果未指定，則預設為 num_attention_heads。
hidden_act (str 或 function, 可選, 預設為 "silu") — 解碼器中的非線性啟用函式（函式或字串）。
max_position_embeddings (int, 可選, 預設為 33) — 該模型可能使用的最大序列長度。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
rms_norm_eps (float, 可選, 預設為 1e-05) — rms 歸一化層使用的 epsilon 值。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。僅在 config.is_decoder=True 時相關。
pad_token_id (int, 可選, 預設為 2050) — 填充 token ID。
bos_token_id (int, 可選) — 流開始 token ID。
eos_token_id (int, 可選) — 流結束 token ID。
rope_theta (float, 可選, 預設為 500000) — RoPE 嵌入的基週期。
rope_scaling (Dict, 可選) — 包含 RoPE 嵌入縮放配置的字典。注意：如果您應用新的 RoPE 型別並期望模型在更長的 max_position_embeddings 上工作，我們建議您相應地更新此值。預期內容：rope_type (str)：要使用的 RoPE 子變體。可以是 ['default', 'linear', 'dynamic', 'yarn', 'longrope', 'llama3'] 之一，其中 'default' 是原始 RoPE 實現。factor (float, 可選)：除 'default' 外的所有 RoPE 型別均使用。應用於 RoPE 嵌入的縮放因子。在大多數縮放型別中，因子 x 將使模型能夠處理長度為 x * 原始最大預訓練長度的序列。original_max_position_embeddings (int, 可選)：與 'dynamic'、'longrope' 和 'llama3' 一起使用。預訓練期間使用的原始最大位置嵌入。attention_factor (float, 可選)：與 'yarn' 和 'longrope' 一起使用。應用於注意力計算的縮放因子。如果未指定，則預設為實現推薦的值，使用 factor 欄位推斷建議值。beta_fast (float, 可選)：僅與 'yarn' 一起使用。設定線性斜坡函式中外推（僅）邊界的引數。如果未指定，則預設為 32。beta_slow (float, 可選)：僅與 'yarn' 一起使用。設定線性斜坡函式中插值（僅）邊界的引數。如果未指定，則預設為 1。short_factor (list[float], 可選)：僅與 'longrope' 一起使用。應用於短上下文（< original_max_position_embeddings）的縮放因子。必須是長度與隱藏大小除以注意力頭數除以 2 相同的數字列表。long_factor (list[float], 可選)：僅與 'longrope' 一起使用。應用於長上下文（< original_max_position_embeddings）的縮放因子。必須是長度與隱藏大小除以注意力頭數除以 2 相同的數字列表。low_freq_factor (float, 可選)：僅與 'llama3' 一起使用。應用於 RoPE 低頻分量的縮放因子。high_freq_factor (float, 可選)：僅與 'llama3' 一起使用。應用於 RoPE 高頻分量的縮放因子。
attention_bias (bool, 可選, 預設為 False) — 在自注意力過程中，是否在查詢、鍵、值和輸出投影層中使用偏差。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
mlp_bias (bool, 可選, 預設為 False) — 在 MLP 層的 up_proj、down_proj 和 gate_proj 層中是否使用偏差。
head_dim (int, 可選) — 注意力頭維度。如果為 None，則預設為 hidden_size // num_attention_heads。

這是配置類，用於儲存 CsmDepthDecoderModel 的配置。它用於根據指定的引數例項化 CSM 深度解碼器模型，定義模型架構。使用預設值例項化配置將生成與 csm-1b 類似的配置。

例如 sesame/csm-1b

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

>>> from transformers import CsmDepthDecoder, CsmDepthDecoderConfig

>>> # Initializing a CsmDepthDecoder
>>> configuration = CsmDepthDecoderConfig()
>>> model = CsmDepthDecoderModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

CsmProcessor

class transformers.CsmProcessor

< 來源 >

( feature_extractor tokenizer chat_template = None )

引數

feature_extractor (EncodecFeatureExtractor) — 特徵提取器是必需輸入。
tokenizer ([PreTrainedTokenizer, PreTrainedTokenizerFast]) — 分詞器是必需輸入。
chat_template (str, 可選) — 一個 Jinja 模板，用於將聊天中的訊息列表轉換為可標記化的字串。

構建一個 Csm 處理器，它將 EncodecFeatureExtractor 和 PretrainedTokenizerFast 封裝成一個處理器，該處理器繼承了音訊特徵提取和分詞器功能。更多資訊請參閱 call()。傳遞 kwargs 的首選方式是每個模態一個字典，請參閱下面的使用示例。

from transformers import CsmProcessor
from datasets import load_dataset

ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
audio = ds[0]["audio"]["array"]

processor = CsmProcessor.from_pretrained("sesame/csm-1b")

processor(
    text=["<|begin_of_text|>[0]What are you working on?<|end_of_text|><|AUDIO|><|audio_eos|><|begin_of_text|>[1]I'm figuring out my budget.<|end_of_text|>"],
    audio=audio,
    text_kwargs = {"padding": False},
    audio_kwargs = {"sampling_rate": 16000},
    common_kwargs = {"return_tensors": "pt"},
)
# this should error out because EncodecFeatureExtractor expects a 24kHz audio :)

call

< 來源 >

( text: typing.Union[str, list[str], list[list[str]], NoneType] audio: typing.Union[numpy.ndarray, ForwardRef('torch.Tensor'), list[numpy.ndarray], tuple[numpy.ndarray], list['torch.Tensor'], tuple['torch.Tensor'], NoneType] = None output_labels: typing.Optional[bool] = False depth_decoder_labels_ratio: typing.Optional[float] = 1.0 **kwargs: typing_extensions.Unpack[transformers.models.csm.processing_csm.CsmProcessorKwargs] ) → BatchFeature

引數

audio (np.ndarray, torch.Tensor, list[np.ndarray], list[torch.Tensor]) — 要準備的音訊或批處理音訊。每個音訊可以是 NumPy 陣列或 PyTorch 張量。
text (str, list[str], list[list[str]]) — 要編碼的序列或批次序列。每個序列可以是字串或字串列表（預標記化字串）。如果序列以字串列表（預標記化）的形式提供，則必須設定 is_split_into_words=True（以消除與批次序列的歧義）。
output_labels (bool, 可選, 預設為 False) — 是否返回用於訓練的標籤。索引將位於 [config.audio_token_id, -100, -101] 中。
- config.audio_token_id 表示一個音訊幀（將序列長度元素視為幀）
- -100 將在損失計算中被忽略
- -101 表示音訊幀將僅用於主幹模型（使用第一個碼本 token 作為標籤）
depth_decoder_labels_ratio (float, 可選, 預設為 1.0) — 用於深度解碼器標籤的音訊幀比例。
return_tensors (str 或 TensorType, 可選) — 如果設定，將返回特定框架的張量。可接受的值為：
- 'tf': 返回 TensorFlow tf.constant 物件。
- 'pt': 返回 PyTorch torch.Tensor 物件。
- 'np': 返回 NumPy np.ndarray 物件。
- 'jax': 返回 JAX jnp.ndarray 物件。

批次特徵

一個具有以下欄位的 BatchFeature

input_ids — 要輸入到模型的 token ID 列表。當 text 不為 None 時返回。
input_values — 要饋送到模型的音訊值列表。當 audio 不為 None 時返回。
attention_mask — 指定模型應關注哪些 token 索引的索引列表（當 return_attention_mask=True 或 "attention_mask" 在 self.model_input_names 中且 text 不為 None 時）。
labels — 音訊幀的標籤列表。當 output_labels=True 時返回。

準備要作為模型輸入饋送的文字和音訊的主要方法。此方法將 text 引數轉發給 PreTrainedTokenizerFast 的 call() 以編碼文字。為了準備音訊，此方法將 audio 引數轉發給 EncodecFeatureExtractor 的 call()。有關更多資訊，請參閱上述兩種方法的文件字串。

CsmForConditionalGeneration

class transformers.CsmForConditionalGeneration

< 來源 >

( config )

引數

config (CsmForConditionalGeneration) — 包含模型所有引數的模型配置類。使用配置檔案初始化並不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法以載入模型權重。

Csm 模型由兩個類似 llama 的自迴歸 Transformer 模型組成：一個預測第一個碼本 token 的主幹模型，以及一個預測其他碼本 token 的深度解碼器。

此模型繼承自 PreTrainedModel。請檢視超類文件以瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。請將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。

forward

< 來源 >

( input_ids: LongTensor = None input_values: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None input_values_cutoffs: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs: typing_extensions.Unpack[transformers.models.csm.modeling_csm.KwargsForCausalLM] ) → transformers.models.csm.modeling_csm.CsmOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor 形狀為 (batch_size, sequence_length, num_codebooks) 或 (batch_size, sequence_length)) —
1. (batch_size, sequence_length): 對應於使用文字提示的處理器準備的輸入序列。此類輸入需要提供 input_values，以便將音訊編碼為碼本 token，然後與文字 token 合併。
2. (batch_size, sequence_length, num_codebooks): 自迴歸解碼期間生成的碼本 token。此類輸入不適用於終端使用者。
索引可以使用 AutoTokenizer 獲取。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
input_values (torch.Tensor 形狀為 (batch_size, sequence_length), 可選) — 輸入原始語音波形的浮點值。可以透過將 .flac 或 .wav 音訊檔案載入到 list[float] 型別陣列或 numpy.ndarray 中（例如，透過 soundfile 庫（pip install soundfile））來獲取這些值。要將陣列準備為 input_values，應使用 AutoProcessor 進行填充和轉換為 torch.FloatTensor 型別的張量。有關詳細資訊，請參閱 {processor_class}.__call__。
attention_mask (torch.Tensor 形狀為 (batch_size, sequence_length), 可選) — 用於避免在填充 token 索引上執行注意力的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未被掩碼的 token，
- 0 表示被掩碼的 token。
什麼是注意力掩碼？
input_values_cutoffs (torch.Tensor 形狀為 (batch_size, max_num_audio), 可選) — 指定每個批處理條目中音訊段的結束位置，相對於連線後的音訊輸入。如果批處理條目的段少於最大值，則用 -1 填充。例如，在一個包含 2 個序列的批處理中，第一個序列包含 2 個長度為 l1 的音訊段，第二個序列包含 1 個長度為 l2 的音訊段，則 input_values_cutoffs 將為：[[l1, 2 * l1], [l2, -1]]。
position_ids (torch.LongTensor 形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 範圍內選擇。

什麼是位置 ID？
past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，則將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入形狀為 (batch_size, 1) 的最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (torch.FloatTensor 形狀為 (batch_size, sequence_length, hidden_size), 可選) — 可選地，您可以選擇直接傳入嵌入表示而不是 input_ids。如果您希望對如何將 input_ids 索引轉換為相關向量有比模型內部嵌入查詢矩陣更多的控制，這會很有用。
labels (torch.LongTensor 形狀為 (batch_size, sequence_length), 可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [config.audio_token_id, -100, -101] 中。需要提供目標 input_values，因為音訊 token 將使用 codec_model 從中推斷。
- config.audio_token_id 表示一個音訊幀（將序列長度元素視為幀）
- -100 將在損失計算中被忽略
- -101 表示音訊幀將僅用於主幹模型（使用第一個碼本 token 作為標籤）
此類標籤可以使用 CsmProcessor 的 output_labels=True 呼叫來準備。
use_cache (bool, optional) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, optional) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
cache_position (torch.LongTensor 形狀為 (sequence_length), 可選) — 表示輸入序列中標記位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。
logits_to_keep (int 或 torch.Tensor, 可選) — 為相容性而保留。不支援以下值之外的值：
1. 0，等同於保留所有 logits，用於訓練方案
2. 1，等同於只保留最後一個 logit，用於生成方案

transformers.models.csm.modeling_csm.CsmOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.models.csm.modeling_csm.CsmOutputWithPast 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置（CsmConfig）和輸入而定的各種元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (tuple(tuple(torch.FloatTensor)), 可選, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量)

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor, ...], 可選, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。
depth_decoder_loss (torch.FloatTensor 形狀為 (1,), 可選, 當提供 labels 時返回) — 深度解碼器模型的語言建模損失（用於下一個標記預測）。
depth_decoder_logits (torch.FloatTensor 形狀為 (batch_size, sequence_length, config.vocab_size)) — 深度解碼器的預測分數（SoftMax 之前每個詞彙標記的分數）。
depth_decoder_past_key_values (tuple(tuple(torch.FloatTensor)), 可選, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量)
depth_decoder_hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
depth_decoder_attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。
backbone_loss (torch.FloatTensor 形狀為 (1,), 可選, 當提供 labels 時返回) — 主幹模型的語言建模損失（用於下一個標記預測）。

CsmForConditionalGeneration 的前向傳播方法，覆蓋了 __call__ 特殊方法。

儘管前向傳播的配方需要在該函式中定義，但在此之後應該呼叫 Module 例項，因為前者會處理預處理和後處理步驟，而後者會默默忽略它們。

示例

>>> import torch
>>> from transformers import CsmForConditionalGeneration, AutoProcessor
>>> from datasets import load_dataset, Audio

>>> model_id = "sesame/csm-1b"
>>> torch_device = "cuda" if torch.cuda.is_available() else "cpu"

>>> processor = AutoProcessor.from_pretrained(model_id)

>>> ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
>>> # ensure the audio is 24kHz
>>> ds = ds.cast_column("audio", Audio(sampling_rate=24000))

>>> conversation = []
>>> # prepare a conversation with text and corresponding audio
>>> for text, audio, speaker_id in zip(ds[:4]["text"], ds[:4]["audio"], ds[:4]["speaker_id"]):
...     conversation.append(
...         {
...             "role": f"{speaker_id}",
...             "content": [{"type": "text", "text": text}, {"type": "audio", "path": audio["array"]}],
...         }
...     )

>>> inputs = processor.apply_chat_template(
...     conversation,
...     tokenize=True,
...     return_dict=True,
...     output_labels=True,
... ).to(torch_device)

>>> model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=torch_device)
>>> output = model(**inputs)
>>> output.loss.backward()

生成

< 來源 >

( input_ids: typing.Optional[torch.Tensor] = None input_values: typing.Optional[torch.Tensor] = None input_values_cutoffs: typing.Optional[torch.Tensor] = None generation_config: typing.Optional[transformers.generation.configuration_utils.GenerationConfig] = None logits_processor: typing.Optional[transformers.generation.logits_process.LogitsProcessorList] = None stopping_criteria: typing.Optional[transformers.generation.stopping_criteria.StoppingCriteriaList] = None synced_gpus: typing.Optional[bool] = None streamer: typing.Optional[ForwardRef('BaseStreamer')] = None output_audio: typing.Optional[bool] = False **kwargs ) → CsmGenerateOutput 或 torch.LongTensor 或 list[torch.FloatTensor]

引數

inputs_ids (torch.Tensor 形狀為 (batch_size, seq_length), 可選) — 用作主幹模型提示的序列。
input_values (torch.Tensor 形狀為 (batch_size, channels, max_concatenated_audio_length), 可選) — 批次音訊輸入值，其中每個批次條目包含該條目的所有音訊片段的連線。這些值將使用編解碼器模型編碼為碼本標記，並與 input_ids 中提供的文字輸入 ID 合併。
input_values_cutoffs (torch.Tensor 形狀為 (batch_size, max_num_audio), 可選) — 指定每個批次條目中音訊片段相對於連線音訊輸入的結束位置。如果批次條目中的片段少於最大值，則用 -1 填充。例如，在一個包含 2 個序列的批次中，第一個序列包含 2 個長度為 l1 的音訊片段，第二個序列包含 1 個長度為 l2 的音訊片段，則 input_values_cutoffs 將為：[[l1, 2 * l1], [l2, -1]]。
generation_config (GenerationConfig, 可選) — 用作生成呼叫基礎引數化的生成配置。傳遞給 generate() 的與 generation_config 屬性匹配的 **kwargs 將覆蓋它們。如果未提供 generation_config，將使用預設值，其載入優先順序如下：1) 如果存在，從 generation_config.json 模型檔案載入；2) 從模型配置載入。請注意，未指定的引數將繼承 GenerationConfig 的預設值，應查閱其文件以引數化生成。
logits_processor (LogitsProcessorList, 可選) — 補充從引數和生成配置構建的預設 logits 處理器。如果傳入的 logits 處理器已使用引數或生成配置建立，則會引發錯誤。此功能適用於高階使用者。
stopping_criteria (StoppingCriteriaList, 可選) — 補充從引數和生成配置構建的預設停止條件。如果傳入的停止條件已使用引數或生成配置建立，則會引發錯誤。如果您的停止條件依賴於 scores 輸入，請確保向 generate 傳入 return_dict_in_generate=True, output_scores=True。此功能適用於高階使用者。
synced_gpus (bool, 可選) — 是否繼續執行 while 迴圈直到達到 max_length。除非被覆蓋，否則在使用 FullyShardedDataParallel 或 DeepSpeed ZeRO Stage 3 與多個 GPU 時，此標誌將設定為 True，以避免在其中一個 GPU 在其他 GPU 之前完成生成時發生死鎖。否則，預設為 False。
streamer (BaseStreamer, 可選) — 用於流式傳輸生成序列的 Streamer 物件。生成的標記透過 streamer.put(token_ids) 傳遞，streamer 負責任何進一步的處理。
output_audio (bool, 可選) — 是否返回生成的音訊。
kwargs (dict[str, Any], 可選) — generation_config 的即時引數化和/或將轉發到模型 forward 函式的額外模型特定 kwargs。深度解碼器特定 kwargs 應以 depth_decoder 為字首。

CsmGenerateOutput 或 torch.LongTensor 或 list[torch.FloatTensor]

一個 CsmGenerateOutput（如果 return_dict_in_generate=True 或當 config.return_dict_in_generate=True 時）或一個 torch.LongTensor（當 output_audio=False 時）或一個 list[torch.FloatTensor]（否則）。

此方法覆蓋了 generate() 以適應 Csm 模型的特性。事實上，Csm 模型需要自定義的生成取樣步驟

推斷主幹模型以取樣第一個碼本標記
以第一個碼本標記作為 input_ids 在深度解碼器上呼叫生成，以取樣下一個碼本標記
使用這些生成的碼本標記作為 input_ids，使用主幹模型取樣下一個第一個碼本標記
重複直到滿足停止條件

大多數生成控制引數都在 generation_config 中設定，如果未傳入，則將設定為模型的預設生成配置。您可以透過向 generate() 傳入相應引數來覆蓋任何 generation_config，例如 .generate(inputs, do_sample=True)。

示例

>>> from transformers import CsmProcessor, CsmForConditionalGeneration
>>> from datasets import load_dataset, Audio

>>> model_id = "sesame/csm-1b"
>>> torch_device = "cuda" if torch.cuda.is_available() else "cpu"

>>> processor = AutoProcessor.from_pretrained(model_id)

>>> ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
>>> # ensure the audio is 24kHz
>>> ds = ds.cast_column("audio", Audio(sampling_rate=24000))

>>> conversation = []
>>> # prepare a conversation with text and corresponding audio
>>> for text, audio, speaker_id in zip(ds[:4]["text"], ds[:4]["audio"], ds[:4]["speaker_id"]):
...     conversation.append(
...         {
...             "role": f"{speaker_id}",
...             "content": [{"type": "text", "text": text}, {"type": "audio", "path": audio["array"]}],
...         }
...     )

>>> # text prompt
>>> conversation.append({"role": f"{ds[4]['speaker_id']}", "content": [{"type": "text", "text": ds[4]["text"]}]})

>>> inputs = processor.apply_chat_template(
...     conversation,
...     tokenize=True,
...     return_dict=True,
... ).to(torch_device)

>>> model = CsmForConditionalGeneration.from_pretrained(model_id, device_map=torch_device)
>>> audio = model.generate(**inputs, output_audio=True)
>>> processor.save_audio(audio, "output.wav")

CsmDepthDecoderForCausalLM

class transformers.CsmDepthDecoderForCausalLM

< 來源 >

( config )

引數

config (CsmDepthDecoderForCausalLM) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不載入與模型關聯的權重，僅載入配置。請檢視 from_pretrained() 方法載入模型權重。

CsmDepthDecoder 模型 transformer，頂部帶有一個 CsmCodebooksHead，可視為位置特定的語言建模頭，允許為每個碼本使用不同的線性層（例如，位置 0 是第一個碼本並使用第一個碼本頭，依此類推）

此模型繼承自 PreTrainedModel。請檢視超類文件以瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。請將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。

forward

< 來源 >

( input_ids: LongTensor = None backbone_last_hidden_state: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs: typing_extensions.Unpack[transformers.models.csm.modeling_csm.KwargsForCausalLM] ) → transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor 形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
backbone_last_hidden_state (torch.FloatTensor 形狀為 (batch_size, backbone_hidden_size), 可選) — 主幹模型的最後一個隱藏狀態。當 input_ids 引數中提供第一個碼本標記（由主幹模型生成）時，此輸入是必需的。
attention_mask (torch.Tensor 形狀為 (batch_size, sequence_length), 可選) — 用於避免在填充標記索引上執行注意力的掩碼。掩碼值選擇在 [0, 1] 中：
- 1 表示未被掩蓋的標記，
- 0 表示被掩蓋的標記。
什麼是注意力掩碼？
position_ids (torch.LongTensor 形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，則將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇只輸入形狀為 (batch_size, 1) 的最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的）而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor 形狀為 (batch_size, sequence_length, hidden_size), 可選) — 可選地，您可以選擇直接傳入嵌入表示，而不是傳入 input_ids。如果您希望對如何將 input_ids 索引轉換為關聯向量有比模型內部嵌入查詢矩陣更多的控制，這將非常有用。
labels (torch.LongTensor 形狀為 (batch_size, sequence_length), 可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（請參閱 input_ids 文件字串）。索引設定為 -100 的標記將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 中的標記計算。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
cache_position (torch.LongTensor 形狀為 (sequence_length), 可選) — 表示輸入序列中標記位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。
logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果是 int，則計算最後 logits_to_keep 個標記的 logits。如果為 0，則計算所有 input_ids 的 logits（特殊情況）。生成時只需要最後一個標記的 logits，僅計算該標記的 logits 可以節省記憶體，這對於長序列或大詞彙量非常重要。如果是 torch.Tensor，則必須是與序列長度維度中要保留的索引相對應的 1D 張量。這在使用打包張量格式（批次和序列長度的單維度）時很有用。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.CausalLMOutputWithPast 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置（CsmConfig）和輸入而定的各種元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (Cache, 可選, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

CsmDepthDecoderForCausalLM 的前向傳播方法，覆蓋了 __call__ 特殊方法。

儘管前向傳播的配方需要在該函式中定義，但在此之後應該呼叫 Module 例項，因為前者會處理預處理和後處理步驟，而後者會默默忽略它們。

CsmDepthDecoderModel

class transformers.CsmDepthDecoderModel

< 來源 >

( config )

引數

config (CsmDepthDecoderModel) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不載入與模型關聯的權重，僅載入配置。請檢視 from_pretrained() 方法載入模型權重。

裸 Csm 模型，輸出原始隱藏狀態，頂部沒有任何特定頭部。

此模型繼承自 PreTrainedModel。請檢視超類文件以瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。請將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。

forward

< 來源 >

( input_ids: LongTensor = None backbone_last_hidden_state: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **flash_attn_kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] ) → transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor 形狀為 (batch_size, sequence_length)) — 詞彙表中輸入序列標記的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
backbone_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, backbone_hidden_size)，可選) — 骨幹模型（backbone model）的最後一個隱藏狀態。當第一個碼本標記（由骨幹模型生成）在 input_ids 引數中提供時，此輸入是必需的。
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中：
- 1 表示**未掩碼**的標記，
- 0 表示**已掩碼**的標記。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- tuple(torch.FloatTensor) 的元組，長度為 config.n_layers，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入形狀為 (batch_size, 1) 的最後一個 input_ids（那些沒有將過去的鍵值狀態提供給此模型的），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，除了傳遞 input_ids，你也可以選擇直接傳遞嵌入表示。如果你想更精細地控制如何將 input_ids 索引轉換為相關向量，而不是依賴模型內部的嵌入查詢矩陣，這將非常有用。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳細資訊請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳細資訊請參閱返回張量中的 hidden_states。
cache_position (torch.LongTensor，形狀為 (sequence_length)，可選) — 描繪輸入序列標記在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPast 或一個 torch.FloatTensor 的元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），根據配置（CsmConfig）和輸入包含各種元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (Cache, 可選, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則可選包含交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

CsmDepthDecoderModel 的 forward 方法，重寫了 __call__ 特殊方法。

儘管前向傳播的配方需要在該函式中定義，但在此之後應該呼叫 Module 例項，因為前者會處理預處理和後處理步驟，而後者會默默忽略它們。

CsmBackboneModel

class transformers.CsmBackboneModel

< source >

( config )

引數

config (CsmBackboneModel) — 包含模型所有引數的模型配置類。使用配置檔案初始化不載入與模型關聯的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

裸 Csm 模型，輸出原始隱藏狀態，頂部沒有任何特定頭部。

此模型繼承自 PreTrainedModel。請檢視超類文件以瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。請將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **flash_attn_kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] ) → transformers.modeling_outputs.BaseModelOutputWithPast or tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length, num_codebooks) 或 (batch_size, sequence_length)) —
1. (batch_size, sequence_length): 對應於使用文字提示處理器準備的輸入序列。此類輸入需要提供 input_values，以便將音訊編碼為碼本標記，然後與文字標記合併。
2. (batch_size, sequence_length, num_codebooks): 在自迴歸解碼期間生成的碼本標記。此類輸入不適用於終端使用者。
索引可以使用 AutoTokenizer 獲取。詳細資訊請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充標記索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中：
- 1 表示**未掩碼**的標記，
- 0 表示**已掩碼**的標記。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列標記在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- tuple(torch.FloatTensor) 的元組，長度為 config.n_layers，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入形狀為 (batch_size, 1) 的最後一個 input_ids（那些沒有將過去的鍵值狀態提供給此模型的），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 可選地，除了傳遞 input_ids，你也可以選擇直接傳遞嵌入表示。如果你想更精細地控制如何將 input_ids 索引轉換為相關向量，而不是依賴模型內部的嵌入查詢矩陣，這將非常有用。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳細資訊請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳細資訊請參閱返回張量中的 hidden_states。
cache_position (torch.LongTensor，形狀為 (sequence_length)，可選) — 描繪輸入序列標記在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (Cache, 可選, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則可選包含交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層輸出，如果模型有嵌入層，+ 每個層輸出一個），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

CsmBackboneModel 的 forward 方法，重寫了 __call__ 特殊方法。

儘管前向傳播的配方需要在該函式中定義，但在此之後應該呼叫 Module 例項，因為前者會處理預處理和後處理步驟，而後者會默默忽略它們。

< > 在 GitHub 上更新