Moshi

概述

Moshi 模型由 Alexandre Défossez, Laurent Mazaré, Manu Orsini, Amélie Royer, Patrick Pérez, Hervé Jégou, Edouard Grave 和 Neil Zeghidour 在 Moshi: a speech-text foundation model for real-time dialogue 中提出。

Moshi 是一個語音-文字基礎模型，它將口語對話視為語音到語音的生成。Moshi 從一個文字語言模型主幹開始，將語音生成為神經音訊編解碼器的殘差量化器的令牌，同時將自己的語音和使用者的語音分別建模為並行流。這允許消除顯式說話人輪次，並建模任意對話動態。Moshi 還將時間對齊的文字令牌預測為音訊令牌的字首。這種“內心獨白”方法顯著提高了生成語音的語言質量，並提供了流式語音識別和文字到語音功能。因此，Moshi 是第一個即時全雙工口語大型語言模型，理論延遲為 160 毫秒，實際延遲為 200 毫秒。

論文摘要如下：

我們引入 Moshi，一個語音-文字基礎模型和全雙工口語對話方塊架。當前的口語對話系統依賴於獨立元件的管道，即語音活動檢測、語音識別、文字對話和文字到語音。這樣的框架無法模擬真實對話的體驗。首先，它們的複雜性導致互動之間存在幾秒的延遲。其次，文字是對話的中間模態，修改意義的非語言資訊（例如情感或非語音聲音）在互動中丟失。最後，它們依賴於說話人輪次的分割，這不考慮重疊語音、中斷和插話。Moshi 透過將口語對話視為語音到語音的生成，解決了這些獨立問題。Moshi 從一個文字語言模型主幹開始，將語音生成為神經音訊編解碼器的殘差量化器的令牌，同時將自己的語音和使用者的語音分別建模為並行流。這允許消除顯式說話人輪次，並建模任意對話動態。此外，我們將先前工作的分層語義到聲學令牌生成擴充套件為首先預測時間對齊的文字令牌作為音訊令牌的字首。這種“內心獨白”方法不僅顯著提高了生成語音的語言質量，而且我們還說明了它如何提供流式語音識別和文字到語音功能。我們得到的模型是第一個即時全雙工口語大型語言模型，理論延遲為 160 毫秒，實際延遲為 200 毫秒，並可在 github.com/kyutai-labs/moshi 獲取。

Moshi 處理 3 種資訊流

使用者的音訊
Moshi 的音訊
Moshi 的文字輸出

與 ~MusicgenModel 類似，音訊用音訊碼本表示，可以像令牌一樣解釋。文字令牌和音訊碼本之間的主要區別在於音訊碼本引入了一個額外的資訊維度。文字令牌的維度通常是 (batch_size, sequence_length)，但音訊令牌的維度是 (batch_size, num_codebooks, sequence_length)。

Moshi 由 3 個元件組成

1. 主要解碼器（論文中的 Helium）

它對應於 MoshiForCausalLM。它嚴格來說是一個經典的文字 LLM，使用與 ~GemmaForCausalLM 相似的架構。換句話說，它接收文字令牌，對其進行嵌入，透過解碼器和語言頭，獲得文字 logits。

2. 深度解碼器

就其本身而言，它也是一個經典的 LLM，但這次，它不是在時間維度上生成，而是在碼本維度上生成。

這也意味著它的上下文長度是 num_codebooks，因此它不能生成超過 num_codebooks 的內容。

請注意，每個時間戳（即每個碼本）都有自己的一組線性層和嵌入。

3. MimiModel

它是 Kyutai 的音訊編碼器，最近已整合到 transformers 中，用於“分詞”音訊。它的用途與 ~MusicgenModel 中 ~EncodecModel 的用途相同。

提示：

原始檢查點可以使用轉換指令碼 src/transformers/models/moshi/convert_moshi_transformers.py 進行轉換

如何使用模型：

此實現有兩個主要目標

透過簡化原始 API 快速測試模型生成
簡化訓練。訓練指南即將釋出，但歡迎使用者貢獻！

它專為中間使用而設計。我們強烈建議使用原始實現來即時流式推斷模型。

1. 模型生成

Moshi 是一個流式自迴歸模型，具有兩個音訊流。換句話說，一個音訊流對應於模型所說/將說的內容，另一個音訊流對應於使用者所說/將說的內容。

MoshiForConditionalGeneration.generate() 因此需要 3 個輸入

input_ids - 對應於文字令牌歷史
moshi_input_values 或 moshi_audio_codes - 對應於模型音訊歷史
user_input_values 或 user_audio_codes - 對應於使用者音訊歷史

這三個輸入必須同步。這意味著它們的長度必須對應相同數量的令牌。

您可以根據要測試的內容動態使用這 3 個輸入

只需檢查模型對使用者提示的響應 - 在這種情況下，input_ids 可以填充填充令牌，user_input_values 可以是與使用者提示相同形狀的零張量。
測試更復雜的行為 - 在這種情況下，您必須小心輸入令牌與音訊的同步方式。

原始模型透過在每個令牌發音之間填充文字來同步文字和音訊。

為了遵循下圖的示例，"Hello, I'm Moshi" 可以轉換為 "Hello,<pad><unk>I'm Moshi"。

MoshiForConditionalGeneration.generate() 然後自迴歸地將自身的音訊流饋送給自身，但由於在使用 transformers 時無法訪問使用者輸入流，因此它將假定使用者正在生成空白音訊。

>>> from datasets import load_dataset, Audio
>>> import torch, math
>>> from transformers import MoshiForConditionalGeneration, AutoFeatureExtractor, AutoTokenizer


>>> librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> feature_extractor = AutoFeatureExtractor.from_pretrained("kyutai/moshiko-pytorch-bf16")
>>> tokenizer = AutoTokenizer.from_pretrained("kyutai/moshiko-pytorch-bf16")
>>> device = "cuda"
>>> dtype = torch.bfloat16

>>> # prepare user input audio 
>>> librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=feature_extractor.sampling_rate))
>>> audio_sample = librispeech_dummy[-1]["audio"]["array"]
>>> user_input_values = feature_extractor(raw_audio=audio_sample, sampling_rate=feature_extractor.sampling_rate, return_tensors="pt").to(device=device, dtype=dtype)

>>> # prepare moshi input values - we suppose moshi didn't say anything while the user spoke
>>> moshi_input_values = torch.zeros_like(user_input_values.input_values)

>>> # prepare moshi input ids - we suppose moshi didn't say anything while the user spoke
>>> num_tokens = math.ceil(moshi_input_values.shape[-1] * waveform_to_token_ratio)
>>> input_ids = torch.ones((1, num_tokens), device=device, dtype=torch.int64) * tokenizer.encode("<pad>")[0]

>>> # generate 25 new tokens (around 2s of audio)
>>> output = model.generate(input_ids=input_ids, user_input_values=user_input_values.input_values, moshi_input_values=moshi_input_values, max_new_tokens=25)

>>> text_tokens = output.sequences
>>> audio_waveforms = output.audio_sequences

2. 模型訓練

由於需要對流進行對齊/同步，大部分工作必須在資料建立/預處理期間完成。

完成後，您可以簡單地將 text_labels 和 audio_labels 以及常規輸入傳遞給 MoshiForConditionalGeneration.forward()，以獲取模型損失。

訓練指南即將釋出，但歡迎使用者貢獻！

模型如何轉發輸入/生成：

輸入流被嵌入並組合到 inputs_embeds 中。
inputs_embeds 透過主解碼器，主解碼器像普通 LLM 一樣處理它。
主解碼器輸出 text logits，同時輸出其 last hidden state，在論文中稱為 temporal context。
深度解碼器切換了我們轉發/生成的維度（碼本而不是時間）。它使用從 text logits 和 temporal context 生成的令牌自迴歸地生成音訊碼本。

此模型由 Yoach Lacombe (ylacombe) 貢獻。

原始程式碼可在此處找到。

MoshiConfig

class transformers.MoshiConfig

< 來源 >

( vocab_size = 32000 hidden_size = 4096 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = None audio_vocab_size = None max_position_embeddings = 3000 rope_theta = 10000.0 hidden_act = 'silu' head_dim = None initializer_range = 0.02 use_cache = True sliding_window = 3000 attention_dropout = 0.0 ffn_dim = 22528 rms_norm_eps = 1e-08 num_codebooks = 8 tie_word_embeddings = False **kwargs )

引數

vocab_size (int, 可選, 預設為 32000) — MoshiDecoder 模型的詞彙表大小。定義了呼叫 MoshiDecoder 時傳入的 inputs_ids 可以表示的不同令牌的數量。
hidden_size (int, 可選, 預設為 4096) — 主解碼器的層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 32) — 解碼器層數。
num_attention_heads (int, 可選, 預設為 32) — 主解碼器塊中每個注意力層的注意力頭數量。
num_key_value_heads (int, 可選) — 用於實現分組查詢注意力的鍵值頭數量。如果 num_key_value_heads=num_attention_heads，模型將使用多頭注意力 (MHA)；如果 num_key_value_heads=1，模型將使用多查詢注意力 (MQA)；否則使用 GQA。將多頭檢查點轉換為 GQA 檢查點時，每個分組鍵和值頭應透過對該組內的所有原始頭進行均值池化來構建。有關更多詳細資訊，請檢視此論文。如果未指定，將預設為 num_attention_heads。
audio_vocab_size (int, 可選) — 模型音訊部分的詞彙表大小。定義了呼叫 Moshi 模型時傳入的 audio_codes 可以表示的不同令牌的數量。
max_position_embeddings (int, 可選, 預設為 3000) — 此模型可能使用的最大序列長度。通常，為以防萬一設定一個較大的值（例如 512 或 1024 或 2048）。
rope_theta (float, 可選, 預設為 10000.0) — RoPE 嵌入的基本週期。
hidden_act (str 或 function, 可選, 預設為 "silu") — 解碼器中的非線性啟用函式（函式或字串）。
head_dim (int, 可選, 預設為 hidden_size // num_attention_heads) — 注意力頭維度。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態分佈初始化器的標準差。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。僅當 config.is_decoder=True 時相關。
sliding_window (int, 可選, 預設為 3000) — 滑動視窗注意力視窗大小。如果未指定，將預設為 3000。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
ffn_dim (int, 可選, 預設為 22528) — 主解碼器塊中“中間”（通常稱為前饋）層的維度。必須為偶數。
rms_norm_eps (float, 可選, 預設為 1e-08) — rms 歸一化層使用的 epsilon。
num_codebooks (int, 可選, 預設為 8) — 每個音訊通道的音訊碼本數量。
tie_word_embeddings (bool, 可選, 預設為 False) — 是否繫結權重嵌入。
kwargs (可選) — 關鍵字引數字典。值得注意的是：
- audio_encoder_config (PretrainedConfig, 可選) — 定義音訊編碼器配置的配置物件例項。
- depth__config (PretrainedConfig, 可選) — 定義深度解碼器配置的配置物件例項。

這是用於儲存 MoshiModel 配置的配置類。它用於根據指定引數例項化 Moshi 模型，定義音訊編碼器、Moshi 深度解碼器和 Moshi 解碼器配置。使用預設值例項化配置將生成與 Moshiko 模型類似的配置，例如 kmhf/hf-moshiko

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import (
...     MoshiConfig,
...     MoshiForConditionalGeneration,
... )

>>> configuration = MoshiConfig()

>>> # Initializing a MoshiForConditionalGeneration (with random weights) from the kmhf/hf-moshiko style configuration
>>> model = MoshiForConditionalGeneration(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

>>> # Saving the model, including its configuration
>>> model.save_pretrained("kmhf/hf-moshiko")

>>> # loading model and config from pretrained folder
>>> moshi_config = MoshiConfig.from_pretrained("kmhf/hf-moshiko")
>>> model = MoshiForConditionalGeneration.from_pretrained("kmhf/hf-moshiko", config=moshi_config)

from_audio_encoder_config

< 來源 >

( audio_encoder_config: PretrainedConfig **kwargs ) → MoshiConfig

MoshiConfig

一個配置物件的例項

從音訊編碼器配置例項化 MoshiConfig（或派生類）。

MoshiDepthConfig

class transformers.MoshiDepthConfig

< 來源 >

( vocab_size = 32000 hidden_size = 1024 input_size = 4096 num_hidden_layers = 6 num_attention_heads = 16 num_key_value_heads = None audio_vocab_size = 2048 max_position_embeddings = 9 hidden_act = 'silu' head_dim = None initializer_range = 0.02 use_cache = True sliding_window = 8 attention_dropout = 0.0 ffn_dim = 5632 rms_norm_eps = 1e-08 num_codebooks = 8 tie_word_embeddings = False **kwargs )

引數

vocab_size (int, 可選, 預設為 32000) — MoshiDepthDecoder 模型的詞彙表大小。定義了呼叫 MoshiDepthDecoder 時傳入的 inputs_ids 可以表示的不同令牌的數量。
hidden_size (int, 可選, 預設為 1024) — 深度解碼器的層和池化層的維度。
input_size (int, 可選, 預設為 4096) — 輸入隱藏狀態的維度。用於連線主解碼器到深度解碼器。
num_hidden_layers (int, 可選, 預設為 6) — 深度解碼器層數。
num_attention_heads (int, 可選, 預設為 16) — 深度解碼器塊中每個注意力層的注意力頭數量。
num_key_value_heads (int, 可選) — 用於實現分組查詢注意力的鍵值頭數量。如果 num_key_value_heads=num_attention_heads，模型將使用多頭注意力 (MHA)；如果 num_key_value_heads=1，模型將使用多查詢注意力 (MQA)；否則使用 GQA。將多頭檢查點轉換為 GQA 檢查點時，每個分組鍵和值頭應透過對該組內的所有原始頭進行均值池化來構建。有關更多詳細資訊，請檢視此論文。如果未指定，將預設為 num_attention_heads。
audio_vocab_size (int, 可選, 預設為 2048) — 模型音訊部分的詞彙表大小。定義了呼叫 Moshi 模型時傳入的 audio_codes 可以表示的不同令牌的數量。
max_position_embeddings (int, 可選, 預設為 9) — 此模型可能使用的最大序列長度。通常，為以防萬一設定一個較大的值（例如 512 或 1024 或 2048）。
hidden_act (str 或 function, 可選, 預設為 "silu") — 深度解碼器中的非線性啟用函式（函式或字串）。
head_dim (int, optional, 預設為 hidden_size // num_attention_heads) — 注意力頭維度。
initializer_range (float, optional, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
use_cache (bool, optional, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。僅當 config.is_decoder=True 時相關。
sliding_window (int, optional, 預設為 8) — 滑動視窗注意力視窗大小。如果未指定，預設為 8。
attention_dropout (float, optional, 預設為 0.0) — 注意力機率的 dropout 比率。
ffn_dim (int, optional, 預設為 5632) — 深度解碼器塊中“中間”（通常稱為前饋）層的維度。必須為偶數。
rms_norm_eps (float, optional, 預設為 1e-08) — rms 歸一化層使用的 epsilon。
num_codebooks (int, optional, 預設為 8) — 每個音訊通道的音訊碼本數量。
tie_word_embeddings (bool, optional, 預設為 False) — 是否繫結權重嵌入。
kwargs (可選) — 關鍵字引數字典。值得注意的是：
- audio_encoder_config (PretrainedConfig, 可選) — 定義音訊編碼器配置的配置物件例項。

這是儲存 MoshiDepthDecoder 配置的配置類。它用於根據指定引數例項化 Moshi 深度解碼器模型，定義 Moshi 深度解碼器配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import (
...     MoshiDepthConfig,
...     MoshiDepthDecoder,
... )

>>> configuration = MoshiDepthConfig()

>>> # Initializing a MoshiDepthDecoder (with random weights) from the kmhf/hf-moshiko style configuration
>>> model = MoshiDepthDecoder(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

MoshiModel

class transformers.MoshiModel

< source >

( config: MoshiConfig )

引數

config (MoshiConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

輸出原始隱藏狀態的裸 Moshi 模型，頂部沒有任何特定頭部。

該模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。將其用作常規 PyTorch 模組，並參考 PyTorch 文件中所有與通用用法和行為相關的內容。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值選擇在 [0, 1] 之間：
- 對於未掩碼的 token 為 1，
- 對於已掩碼的 token 為 0。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍在 [0, config.n_positions - 1] 之間。

什麼是位置 ID？
past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 預計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼前一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv cache 指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，則將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入最後一個 input_ids（那些沒有將其過去鍵值狀態提供給此模型的）形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，您可以直接傳遞嵌入表示，而不是傳遞 input_ids。如果您想對如何將 input_ids 索引轉換為相關向量擁有更多控制權，而不是模型內部的嵌入查詢矩陣，這將很有用。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（請參閱 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。
cache_position (形狀為 (sequence_length) 的 torch.LongTensor, 可選) — 表示輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.BaseModelOutputWithPast 或 torch.FloatTensor 的元組（如果傳遞 return_dict=False 或 config.return_dict=False）包含根據配置（MoshiConfig）和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (Cache, 可選, 當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則可選地在交叉注意力塊中），可用於（參閱 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層輸出，如果模型有嵌入層，+一個用於每個層輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

MoshiModel forward 方法，覆蓋了 __call__ 特殊方法。

儘管 forward pass 的配方需要在此函式中定義，但之後應該呼叫 Module 例項而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則悄悄地忽略它們。

MoshiForCausalLM

class transformers.MoshiForCausalLM

< source >

( config )

引數

config (MoshiForCausalLM) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有文字語言建模頭部的 Moshi 解碼器模型。僅適用於文字。

該模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。將其用作常規 PyTorch 模組，並參考 PyTorch 文件中所有與通用用法和行為相關的內容。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs ) → transformers.models.moshi.modeling_moshi.MoshiCausalLMOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值選擇在 [0, 1] 之間：
- 對於未掩碼的 token 為 1，
- 對於已掩碼的 token 為 0。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍在 [0, config.n_positions - 1] 之間。

什麼是位置 ID？
past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 預計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼前一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，則將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入最後一個 input_ids（那些沒有將其過去鍵值狀態提供給此模型的）形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，您可以直接傳遞嵌入表示，而不是傳遞 input_ids。如果您想對如何將 input_ids 索引轉換為相關向量擁有更多控制權，而不是模型內部的嵌入查詢矩陣，這將很有用。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（請參閱 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量中的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。
cache_position (形狀為 (sequence_length) 的 torch.LongTensor, 可選) — 表示輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。
labels (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（請參閱 input_ids 文件字串）。索引設定為 -100 的 token 將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 中的 token 計算。
logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果是 int，則計算最後 logits_to_keep 個 token 的 logits。如果是 0，則計算所有 input_ids 的 logits（特殊情況）。生成時只需要最後一個 token 的 logits，只計算該 token 可以節省記憶體，這對於長序列或大詞彙量來說非常重要。如果是 torch.Tensor，則必須是與序列長度維度中要保留的索引相對應的 1D 張量。當使用打包張量格式（批次和序列長度的單維度）時，這很有用。

transformers.models.moshi.modeling_moshi.MoshiCausalLMOutputWithPast 或 tuple(torch.FloatTensor)

MoshiConfig 和輸入決定的 transformers.models.moshi.modeling_moshi.MoshiCausalLMOutputWithPast 或 torch.FloatTensor 的元組（如果傳遞 return_dict=False 或 config.return_dict=False）包含各種元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
last_hidden_state (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選，預設為 None) — 模型最後一層輸出的隱藏狀態序列。
past_key_values (tuple(tuple(torch.FloatTensor)), 可選, 當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple[torch.FloatTensor, ...], 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層輸出，如果模型有嵌入層，+一個用於每個層輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple[torch.FloatTensor, ...], 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

MoshiForCausalLM forward 方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, MoshiForCausalLM

>>> model = MoshiForCausalLM.from_pretrained("kmhf/hf-moshiko")
>>> tokenizer = AutoTokenizer.from_pretrained("kmhf/hf-moshiko")

>>> prompt = "What is your favorite condiment?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"What is your favorite condiment?"

MoshiForConditionalGeneration

class transformers.MoshiForConditionalGeneration

< source >

( config: MoshiConfig )

引數

config (MoshiConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

原始 Moshi 模型，帶有一個音訊編碼器、一個 Moshi 深度解碼器和一個 Moshi 解碼器，用於語音到語音的轉換。

該模型繼承自 PreTrainedModel。請檢視超類文件，瞭解庫為所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

該模型也是 PyTorch torch.nn.Module 的子類。將其用作常規 PyTorch 模組，並參考 PyTorch 文件中所有與通用用法和行為相關的內容。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.BoolTensor] = None user_input_values: typing.Optional[torch.FloatTensor] = None user_audio_codes: typing.Optional[torch.Tensor] = None moshi_input_values: typing.Optional[torch.FloatTensor] = None moshi_audio_codes: typing.Optional[torch.Tensor] = None past_key_values: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None text_labels: typing.Optional[torch.LongTensor] = None audio_labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.BoolTensor, 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值選擇在 [0, 1] 之間：
- 對於未掩碼的 token 為 1，
- 對於已掩碼的 token 為 0。
什麼是注意力掩碼？
user_input_values (`torch.Tensor`，形狀為`(batch_size, 1, audio_sequence_length)`，可選) — 用作生成的使用者音訊提示的音訊波形。
user_audio_codes (`torch.Tensor`，形狀為`(batch_size, num_codebooks, sequence_length)`，可選) — 用作生成的使用者音訊提示的音訊程式碼。優先順序高於`user_input_values`，表示透過音訊編碼器後`user_input_values`的音訊“token”。
moshi_input_values (`torch.Tensor`，形狀為`(batch_size, 1, audio_sequence_length)`，可選) — 用作生成Moshi提示的音訊波形。
moshi_audio_codes (`torch.Tensor`，形狀為`(batch_size, num_codebooks, sequence_length)`，可選) — 用作生成Moshi提示的音訊程式碼。優先順序高於`moshi_input_values`，表示透過音訊編碼器後`moshi_input_values`的音訊“token”。
past_key_values (`tuple[tuple[torch.FloatTensor]]`，可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的`past_key_values`，當`use_cache=True`或`config.use_cache=True`時。

允許兩種格式：
- 一個Cache例項，參見我們的kv快取指南；
- 長度為`config.n_layers`的`tuple(torch.FloatTensor)`元組，每個元組包含2個形狀為`(batch_size, num_heads, sequence_length, embed_size_per_head)`的張量）。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入`past_key_values`，將返回傳統快取格式。

如果使用`past_key_values`，使用者可以選擇只輸入形狀為`(batch_size, 1)`的最後一個`input_ids`（那些沒有將其過去的鍵值狀態提供給此模型的輸入），而不是形狀為`(batch_size, sequence_length)`的所有`input_ids`。
inputs_embeds (`torch.FloatTensor`，形狀為`(batch_size, sequence_length, hidden_size)`，可選) — 可選地，您可以選擇直接傳入嵌入表示，而不是傳入`input_ids`。如果使用了`past_key_values`，可選地只需輸入最後一個`inputs_embeds`（參見`past_key_values`）。如果您希望對`input_ids`索引如何轉換為關聯向量有比模型內部嵌入查詢矩陣更多的控制，這會很有用。

如果`input_ids`和`inputs_embeds`都未設定，`inputs_embeds`將採用`inputs_embeds`的值。
text_labels (`torch.LongTensor`，形狀為`(batch_size, sequence_length)`，可選) — 用於文字語言建模的標籤。請注意，標籤在模型內部會移位，即您可以設定`labels = input_ids`。索引在`[-100, 0, ..., config.vocab_size]`中選擇。所有設定為`-100`的標籤都將被忽略（遮蔽），損失只計算`[0, ..., config.vocab_size]`中的標籤。
audio_labels (`torch.LongTensor`，形狀為`(batch_size, num_codebooks, sequence_length)`，可選) — 用於語言建模的標籤。請注意，標籤在模型內部會移位，即您可以設定`labels = input_ids`。索引在`[-100, 0, ..., config.vocab_size]`中選擇。所有設定為`-100`的標籤都將被忽略（遮蔽），損失只計算`[0, ..., config.audio_vocab_size]`中的標籤。
use_cache (`bool`，可選) — 如果設定為`True`，則返回`past_key_values`鍵值狀態，可用於加速解碼（參見`past_key_values`）。
output_attentions (`bool`，可選) — 是否返回所有注意力層的注意力張量。更多詳細資訊請參見返回張量下的`attentions`。
output_hidden_states (`bool`，可選) — 是否返回所有層的隱藏狀態。更多詳細資訊請參見返回張量下的`hidden_states`。
return_dict (`bool`，可選) — 是否返回ModelOutput而不是普通元組。

transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

一個transformers.modeling_outputs.Seq2SeqLMOutput或一個`torch.FloatTensor`元組（如果傳入了`return_dict=False`或`config.return_dict=False`），包含根據配置（MoshiConfig）和輸入而定的各種元素。

loss (torch.FloatTensor，形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (`EncoderDecoderCache`，可選，當傳入`use_cache=True`或`config.use_cache=True`時返回) — 這是一個EncoderDecoderCache例項。更多詳細資訊請參見我們的kv快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (`tuple(torch.FloatTensor)`，可選，當傳入`output_hidden_states=True`或`config.output_hidden_states=True`時返回) — `torch.FloatTensor`元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為`(batch_size, sequence_length, hidden_size)`。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (`tuple(torch.FloatTensor)`，可選，當傳入`output_attentions=True`或`config.output_attentions=True`時返回) — `torch.FloatTensor`元組（每個層一個），形狀為`(batch_size, num_heads, sequence_length, sequence_length)`。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (`tuple(torch.FloatTensor)`，可選，當傳入`output_attentions=True`或`config.output_attentions=True`時返回) — `torch.FloatTensor`元組（每個層一個），形狀為`(batch_size, num_heads, sequence_length, sequence_length)`。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (`tuple(torch.FloatTensor)`，可選，當傳入`output_hidden_states=True`或`config.output_hidden_states=True`時返回) — `torch.FloatTensor`元組（如果模型有嵌入層，則包括嵌入層的輸出，加上每個層的輸出），形狀為`(batch_size, sequence_length, hidden_size)`。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (`tuple(torch.FloatTensor)`，可選，當傳入`output_attentions=True`或`config.output_attentions=True`時返回) — `torch.FloatTensor`元組（每個層一個），形狀為`(batch_size, num_heads, sequence_length, sequence_length)`。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。

MoshiForConditionalGeneration的forward方法，重寫了`__call__`特殊方法。

示例

>>> from transformers import MoshiForConditionalGeneration
>>> import torch

>>> model = MoshiForConditionalGeneration.from_pretrained("kmhf/hf-moshiko")
>>> inputs = moshi.get_unconditional_inputs()

>>> logits = model(**inputs, ).logits
>>> logits.shape  # (bsz, seq_len, text_vocab_size)
torch.Size([1, 1, 32000])

生成

< source >

( input_ids: typing.Optional[torch.LongTensor] = None user_input_values: typing.Optional[torch.FloatTensor] = None user_audio_codes: typing.Optional[torch.Tensor] = None moshi_input_values: typing.Optional[torch.FloatTensor] = None moshi_audio_codes: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None return_audio_waveforms: typing.Optional[bool] = True return_audio_codes: typing.Optional[bool] = None concat_unconditional_inputs: typing.Optional[bool] = True **kwargs )

引數

input_ids (`torch.Tensor`，形狀為`(batch_size, sequence_length)`，可選) — 用作文字提示的序列，用於生成。
user_input_values (`torch.Tensor`，形狀為`(batch_size, 1, audio_sequence_length)`，可選) — 用作生成的使用者音訊提示的音訊波形。
user_audio_codes (`torch.Tensor`，形狀為`(batch_size, num_codebooks, sequence_length)`，可選) — 用作生成的使用者音訊提示的音訊程式碼。優先順序高於`user_input_values`，表示透過音訊編碼器後`user_input_values`的音訊“token”。
moshi_input_values (`torch.Tensor`，形狀為`(batch_size, 1, audio_sequence_length)`，可選) — 用作生成Moshi提示的音訊波形。
moshi_audio_codes (`torch.Tensor`，形狀為`(batch_size, num_codebooks, sequence_length)`，可選) — 用作生成Moshi提示的音訊程式碼。優先順序高於`moshi_input_values`，表示透過音訊編碼器後`moshi_input_values`的音訊“token”。
inputs_embeds (`torch.FloatTensor`，形狀為`(batch_size, sequence_length, hidden_size)`，可選) — 可選地，您可以選擇直接傳入嵌入表示，而不是傳入`input_ids`和音訊輸入。如果您希望對輸入如何轉換為關聯向量有比模型內部嵌入查詢矩陣更多的控制，這會很有用。
return_audio_waveforms (`bool`，可選，預設為`True`) — 如果為`False`，則不會生成音訊波形。
return_audio_codes (`bool`，可選) — 如果為`True`，還將返回生成的音訊程式碼，即透過音訊解碼器後轉換為`audio_sequences`的中間音訊“token”。
concat_unconditional_inputs (`bool`，可選，預設為`True`) — 如果為`False`，則不會連線初始音訊和文字token。
kwargs (`dict[str, Any]`，可選) — 傳遞給`generate`方法的剩餘關鍵字引數字典。有關如何使用它們的更多資訊，請參閱原始`generate`文件字串。請注意，帶有depth_字首的關鍵字將作為深度解碼器`generate`方法的輸入。否則，後者將使用其預設的生成配置。

生成文字token ID和音訊token ID序列。

get_unconditional_inputs

< source >

( num_samples = 1 )

引數

num_samples (`int`，可選) — 無條件生成的音訊樣本數量。
max_new_tokens (`int`，可選) — 為每個樣本生成的token數量。更多的token意味著更長的音訊樣本，但代價是推理時間更長（因為每個樣本需要生成更多的音訊token）。

用於無條件生成的獲取空輸入的輔助函式，使模型能夠在沒有特徵提取器或分詞器的情況下使用。

示例

>>> from transformers import MoshiForConditionalGeneration

>>> model = MoshiForConditionalGeneration.from_pretrained("kmhf/hf-moshiko-pytorch-bf16")

>>> # get the unconditional (or 'null') inputs for the model
>>> unconditional_inputs = model.get_unconditional_inputs(num_samples=1)
>>> audio_samples = model.generate(**unconditional_inputs, max_new_tokens=256)

< > 在 GitHub 上更新

Transformers

Moshi

概述

提示：

如何使用模型：

模型如何轉發輸入/生成：

MoshiConfig

class transformers.MoshiConfig

from_audio_encoder_config

MoshiDepthConfig

class transformers.MoshiDepthConfig

MoshiModel

class transformers.MoshiModel

forward

MoshiForCausalLM

class transformers.MoshiForCausalLM

forward

MoshiForConditionalGeneration

class transformers.MoshiForConditionalGeneration

forward

生成

get_unconditional_inputs