Transformers 文件

Zamba2

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Zamba2

Zamba2 是由 Zyphra 訓練的大型語言模型 (LLM)，並以 Apache 2.0 許可證提供。請參閱 Zyphra Hugging Face 倉庫獲取模型權重。

此模型由 pglo 貢獻。

模型詳情

Zamba2-1.2B、Zamba2-2.7B 和 Zamba2-7B 是結合了狀態空間模型（特別是 Mamba）和 Transformer 的混合模型，並使用下一個標記預測進行訓練。Zamba2 在每 6 個 mamba 塊後使用共享的 Transformer 層。它使用 Mistral v0.1 分詞器。我們在一系列小規模的消融實驗後確定了這種架構。Zamba2-1.2B、Zamba2-2.7B 和 Zamba2-7B 分別在 2T 和 3T 標記上進行了預訓練。

快速入門

先決條件

Zamba2 需要您使用 transformers 4.48.0 或更高版本

pip install transformers>=4.48.0

推理

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-7B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-7B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "What factors contributed to the fall of the Roman Empire?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

模型卡

模型卡可以在以下位置找到：

問題

對於模型輸出問題或社群討論，請使用 Hugging Face 社群論壇

許可證

模型權重透過 Apache 2.0 許可證開源。

Zamba2Config

class transformers.Zamba2Config

< 原始碼 >

( 詞彙表大小 = 32000 最大位置嵌入 = 4096 隱藏層大小 = 2560 隱藏層數量 = 54 層塊型別 = None mamba_d_state = 64 mamba_d_conv = 4 mamba_expand = 2 mamba_ngroups = 1 time_step_min = 0.001 time_step_max = 0.1 time_step_floor = 0.0001 time_step_limit = None n_mamba_heads = 8 use_conv_bias = True chunk_size = 256 use_mem_eff_path = False add_bias_linear = False 中間層大小 = None 隱藏層啟用函式 = 'gelu' 注意力頭數 = 32 鍵值對頭數 = None 注意力Dropout = 0.0 記憶體塊數量 = 1 使用共享注意力介面卡 = False 介面卡秩 = 128 使用記憶體RoPE = False rope_theta = 10000 初始化範圍 = 0.02 rms_norm_eps = 1e-05 使用快取 = True 保留logits數量 = 1 填充token_id = 0 bos_token_id = 1 eos_token_id = 2 使用長上下文 = False **kwargs )

引數

vocab_size (int, 可選, 預設值 32000) — Zamba2 模型的詞彙表大小。定義了呼叫 Zamba2Model 時 inputs_ids 可以表示的不同標記的數量。
max_position_embeddings (int, 可選, 預設值 4096) — 此模型可能使用的最大序列長度。
hidden_size (int, 可選, 預設值 2560) — 隱藏表示的維度。
num_hidden_layers (int, 可選, 預設值 54) — 模型中隱藏層的數量。
layers_block_type (list, 可選) — 層型別列表，可以是“mamba”或“hybrid”。
mamba_d_state (int, 可選, 預設值 64) — 狀態空間潛在變數的形狀。
mamba_d_conv (int, 可選, 預設值 4) — 卷積核的大小。
mamba_expand (int, 可選, 預設值 2) — 用於確定中間層大小的擴充套件因子。
mamba_ngroups (int, 可選, 預設值 1) — mamba 2 演化矩陣的分組數量。
time_step_min (float, 可選, 預設值 0.001) — 用於限制 dt_proj.bias 的最小 time_step。
time_step_max (float, 可選, 預設值 0.1) — 用於限制 dt_proj.bias 的最大 time_step。
time_step_floor (float, 可選, 預設值 0.0001) — dt_proj.bias 層初始化的最小鉗制值。
time_step_limit (tuple, 可選) — 時間步值的接受範圍。
n_mamba_heads (int, 可選, 預設值 8) — mamba 2 演化矩陣的頭數。
use_conv_bias (bool, 可選, 預設值 True) — 是否在混合器塊的卷積層中使用偏置。
chunk_size (int, 可選, 預設值 256) — 組成序列的塊大小。
use_mem_eff_path (bool, 可選, 預設值 False) — 是否在 mamba2 層中使用融合的 conv1d 和掃描。
add_bias_linear (bool, 可選, 預設值 False) — 指示是否在各個層中使用偏置的標誌。
intermediate_size (int, 可選, 預設值 4 * hidden_size) — MLP 表示的維度。
hidden_act (str, 可選, 預設值 "gelu") — MLP 中的非線性啟用函式（函式或字串）。
num_attention_heads (int, 可選, 預設值 32) — Transformer 解碼器中每個注意力層的注意力頭數。
num_key_value_heads (int, 可選) — 用於實現分組查詢注意力的鍵值對頭數。如果 num_key_value_heads=None，模型將使用多頭注意力 (MHA)；如果 num_key_value_heads=1，模型將使用多查詢注意力 (MQA)，否則使用 GQA。將多頭檢查點轉換為 GQA 檢查點時，每個組的鍵和值頭應透過對該組內的所有原始頭進行均值池化來構建。有關更多詳細資訊，請檢視此論文。
attention_dropout (float, 可選, 預設值 0.0) — 注意力機率的 Dropout 比率。
num_mem_blocks (int, 可選, 預設值 1) — 未共享 Transformer 塊的數量。
use_shared_attention_adapter (bool, 可選, 預設值 False) — 如果為 True，未共享介面卡（形式上與 LoRA 相同，但在基礎模型中使用）將新增到共享注意力層中的 q、k、v 投影器。
adapter_rank (int, optional, defaults to 128) — 共享 MLP 和共享注意力層中的介面卡秩。
use_mem_rope (bool, optional, defaults to False) — 如果為 True，則在共享注意力層中包含 RoPE。
rope_theta (float, optional, defaults to 10000.0) — RoPE 嵌入的基礎週期。
initializer_range (float, optional, defaults to 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
rms_norm_eps (float, optional, defaults to 1e-05) — rms 歸一化層使用的 epsilon。
use_cache (bool, optional, defaults to True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。僅當 config.is_decoder=True 時相關。
num_logits_to_keep (int 或 None, optional, defaults to 1) — 生成過程中要計算的 prompt logits 數量。如果為 None，則計算所有 logits。如果為整數值，則僅計算最後 num_logits_to_keep 個 logits。預設為 1，因為生成時只需要最後一個 prompt token 的 logits。對於長序列，整個序列的 logits 可能會佔用大量記憶體，因此將 num_logits_to_keep=1 可以顯著減少記憶體佔用。
pad_token_id (int, optional, defaults to 0) — 填充 token 的 ID。
bos_token_id (int, optional, defaults to 1) — “序列開始”token 的 ID。
eos_token_id (int, optional, defaults to 2) — “序列結束”token 的 ID。
use_long_context (bool, optional, defaults to False) — 透過修改 RoPE 啟用 Zamba 的上下文擴充套件版本。

這是一個配置類，用於儲存 Zamba2Model 的配置。它用於根據指定的引數例項化 Zamba2 模型，定義模型架構。使用預設值例項化配置將生成類似於 Zamba2 模型的配置。

Zyphra/Zamba2-2.7B

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

>>> from transformers import Zamba2Model, Zamba2Config
>>> # Initializing a Zamba2-2.7B style configuration
>>> configuration = Zamba2Config()
>>> # Initializing a model from the Zamba2-2.7B style configuration
>>> model = Zamba2Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

Zamba2Model

class transformers.Zamba2Model

< source >

( config: Zamba2Config )

引數

config (Zamba2Config) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

裸 Zamba2 模型，輸出原始隱藏狀態，頂部沒有任何特定頭部。

此模型繼承自 PreTrainedModel。有關庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等），請檢視超類文件。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch Module 使用，並參考 PyTorch 文件中所有與一般用法和行為相關的內容。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.BaseModelOutputWithPast or tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.Tensor of shape (batch_size, sequence_length), optional) — 用於避免對填充 token 索引執行注意力操作的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未被掩蓋的 token，
- 0 表示被掩蓋的 token。
什麼是注意力掩碼？
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache, optional) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv cache 指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，則返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的 token），形狀為 (batch_size, 1)，而不是所有 input_ids，形狀為 (batch_size, sequence_length)。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可選地，您可以選擇直接傳入嵌入表示，而不是傳入 input_ids。如果您希望對 input_ids 索引如何轉換為相關向量有更多控制，而不是使用模型的內部嵌入查詢矩陣，這會很有用。
use_cache (bool, optional) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, optional) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是純元組。
cache_position (torch.LongTensor of shape (sequence_length), optional) — 表示輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPast 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (Zamba2Config) 和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (Cache, optional, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv cache 指南。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，以及如果 config.is_encoder_decoder=True 則可選地在交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), optional, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（如果模型有嵌入層，則其中一個用於嵌入輸出，加上每個層的輸出）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), optional, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每個層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

Zamba2Model 的 forward 方法，覆蓋了 __call__ 特殊方法。

儘管前向傳播的配方需要在該函式中定義，但此後應呼叫 Module 例項，而不是該函式，因為前者負責執行預處理和後處理步驟，而後者則默默忽略它們。

Zamba2ForCausalLM

class transformers.Zamba2ForCausalLM

< source >

( config: Zamba2Config )

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **loss_kwargs ) → transformers.modeling_outputs.CausalLMOutputWithPast or tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input ID？
attention_mask (torch.Tensor of shape (batch_size, sequence_length), optional) — 用於避免對填充 token 索引執行注意力操作的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示未被掩蓋的 token，
- 0 表示被掩蓋的 token。
什麼是注意力掩碼？
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~models.zamba2.modeling_zamba2.Zamba2HybridDynamicCache, optional) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv cache 指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，則返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的 token），形狀為 (batch_size, 1)，而不是所有 input_ids，形狀為 (batch_size, sequence_length)。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可選地，您可以選擇直接傳入嵌入表示，而不是傳入 input_ids。如果您希望對 input_ids 索引如何轉換為相關向量有更多控制，而不是使用模型的內部嵌入查詢矩陣，這會很有用。
labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用於計算掩碼語言建模損失的標籤。索引應為 [0, ..., config.vocab_size] 或 -100 (參見 input_ids 文件字串)。索引設定為 -100 的 token 將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 中的 token 計算。
use_cache (bool, optional) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, optional) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是純元組。
cache_position (torch.LongTensor of shape (sequence_length), optional) — 表示輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整的序列長度。
logits_to_keep (Union[int, torch.Tensor], defaults to 0) — 如果是 int，則計算最後 logits_to_keep 個 token 的 logits。如果是 0，則計算所有 input_ids 的 logits（特殊情況）。生成時只需要最後一個 token 的 logits，並且只計算該 token 的 logits 可以節省記憶體，這對於長序列或大詞彙量來說非常重要。如果是 torch.Tensor，則必須是 1D，對應於在序列長度維度中要保留的索引。這在使用打包張量格式（批次和序列長度的單維度）時很有用。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.CausalLMOutputWithPast 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (Zamba2Config) 和輸入的不同元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (Cache, optional, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv cache 指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), optional, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（如果模型有嵌入層，則其中一個用於嵌入輸出，加上每個層的輸出）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), optional, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每個層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

Zamba2ForCausalLM 的 forward 方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, Zamba2ForCausalLM

>>> model = Zamba2ForCausalLM.from_pretrained("Zyphra/Zamba2-7B-v1")
>>> tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-7B-v1")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."

Zamba2ForSequenceClassification

class transformers.Zamba2ForSequenceClassification

< source >

( config )

引數

config (Zamba2ForSequenceClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請檢視 from_pretrained() 方法來載入模型權重。

帶有序列分類頭部（線性層）的 Zamba2 模型。

Zamba2ForSequenceClassification 使用最後一個 token 進行分類，與其他因果模型（如 GPT-2）相同。

由於它對最後一個 token 進行分類，因此需要知道最後一個 token 的位置。如果在配置中定義了 pad_token_id，它會在每一行中找到不是填充 token 的最後一個 token。如果沒有定義 pad_token_id，它只取批處理中每一行的最後一個值。由於當傳入 inputs_embeds 而不是 input_ids 時，它無法猜測填充 token，因此它會做同樣的事情（取批處理中每一行的最後一個值）。

此模型繼承自 PreTrainedModel。有關庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等），請檢視超類文件。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch Module 使用，並參考 PyTorch 文件中所有與一般用法和行為相關的內容。

forward

< 源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor，可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是 input IDs？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor，可選) — 用於避免對填充 token 索引執行注意力操作的掩碼。掩碼值選擇在 [0, 1] 中：
- 對於 未被掩碼 的 token 為 1，
- 對於 被掩碼 的 token 為 0。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor，可選) — 位置嵌入中每個輸入序列 token 位置的索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼前期返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv cache 指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，則將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇只輸入形狀為 (batch_size, 1) 的最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的輸入），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor，可選) — 可選地，您可以選擇直接傳入嵌入表示，而不是傳入 input_ids。如果您希望對如何將 input_ids 索引轉換為關聯向量具有比模型內部嵌入查詢矩陣更多的控制權，則這會很有用。
labels (形狀為 (batch_size,) 的 torch.LongTensor，可選) — 用於計算序列分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 之間。如果 config.num_labels == 1，則計算迴歸損失（均方誤差損失）；如果 config.num_labels > 1，則計算分類損失（交叉熵）。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（請參閱 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量中的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量中的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是純元組。

transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.SequenceClassifierOutputWithPast 或一個 torch.FloatTensor 元組（如果傳入 return_dict=False 或當 config.return_dict=False 時），包含根據配置（Zamba2Config）和輸入而定的各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
past_key_values (Cache, optional, 當傳入 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv cache 指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), optional, 當傳入 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元組（如果模型有嵌入層，則其中一個用於嵌入輸出，加上每個層的輸出）。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), optional, 當傳入 output_attentions=True 或當 config.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元組（每個層一個）。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

Zamba2ForSequenceClassification 的 forward 方法，覆蓋了 __call__ 特殊方法。

單標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, Zamba2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
>>> model = Zamba2ForSequenceClassification.from_pretrained("Zyphra/Zamba2-2.7B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = Zamba2ForSequenceClassification.from_pretrained("Zyphra/Zamba2-2.7B", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, Zamba2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
>>> model = Zamba2ForSequenceClassification.from_pretrained("Zyphra/Zamba2-2.7B", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = Zamba2ForSequenceClassification.from_pretrained(
...     "Zyphra/Zamba2-2.7B", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

< > 在 GitHub 上更新

←Zamba BEiT→