Transformers 文件

Helium

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Helium

概述

Helium 模型由 Kyutai 團隊在釋出 Helium-1 預覽版一文中提出。

Helium-1 預覽版是一個輕量級的語言模型，擁有 20 億引數，專為邊緣和移動裝置設計。它支援以下語言：英語、法語、德語、義大利語、葡萄牙語、西班牙語。

開發者： Kyutai
模型型別： 大語言模型
語言 (NLP)： 英語、法語、德語、義大利語、葡萄牙語、西班牙語
許可證： CC-BY 4.0

評測

測試資料

該模型在 MMLU、TriviaQA、NaturalQuestions、ARC Easy & Challenge、Open Book QA、Common Sense QA、Physical Interaction QA、Social Interaction QA、HellaSwag、WinoGrande、Multilingual Knowledge QA、FLORES 200 等資料集上進行了評測。

指標

我們在 MMLU、ARC、OBQA、CSQA、PIQA、SIQA、HellaSwag、WinoGrande 上報告準確率。我們在 TriviaQA、NQ 和 MKQA 上報告精確匹配率。我們在 FLORES 上報告 BLEU 分數。

英語評測結果

基準測試	Helium-1 預覽版	HF SmolLM2 (1.7B)	Gemma-2 (2.6B)	Llama-3.2 (3B)	Qwen2.5 (1.5B)

MMLU	51.2	50.4	53.1	56.6	61.0
NQ	17.3	15.1	17.7	22.0	13.1
TQA	47.9	45.4	49.9	53.6	35.9
ARC E	80.9	81.8	81.1	84.6	89.7
ARC C	62.7	64.7	66.0	69.0	77.2
OBQA	63.8	61.4	64.6	68.4	73.8
CSQA	65.6	59.0	64.4	65.4	72.4
PIQA	77.4	77.7	79.8	78.9	76.0
SIQA	64.4	57.5	61.9	63.8	68.7
HS	69.7	73.2	74.7	76.9	67.5
WG	66.5	65.6	71.2	72.0	64.8

平均分	60.7	59.3	62.2	64.7	63.6

多語言評測結果

語言	基準測試	Helium-1 預覽版	HF SmolLM2 (1.7B)	Gemma-2 (2.6B)	Llama-3.2 (3B)	Qwen2.5 (1.5B)

德語	MMLU	45.6	35.3	45.0	47.5	49.5
	ARC C	56.7	38.4	54.7	58.3	60.2
	HS	53.5	33.9	53.4	53.7	42.8
	MKQA	16.1	7.1	18.9	20.2	10.4

西班牙語	MMLU	46.5	38.9	46.2	49.6	52.8
	ARC C	58.3	43.2	58.8	60.0	68.1
	HS	58.6	40.8	60.5	61.1	51.4
	MKQA	16.0	7.9	18.5	20.6	10.6

技術規格

模型架構和目標

超引數	值
層數	24
頭	20
模型維度	2560
MLP 維度	7040
上下文大小	4096
Theta RoPE	100,000

技巧

此模型由 Laurent Mazare 貢獻。

使用技巧

Helium 可以在 Hugging Face Hub 上找到。

下面，我們將演示如何使用 helium-1-preview 進行推理。

>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto

>>> model = AutoModelForCausalLM.from_pretrained("kyutai/helium-1-preview-2b", device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("kyutai/helium-1-preview-2b")

>>> prompt = "Give me a short introduction to large language model."

>>> model_inputs = tokenizer(prompt, return_tensors="pt").to(device)

>>> generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

>>> generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

>>> response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

HeliumConfig

class transformers.HeliumConfig

< 原始碼 >

( vocab_size = 48000 hidden_size = 2560 intermediate_size = 7040 num_hidden_layers = 24 num_attention_heads = 20 num_key_value_heads = 20 head_dim = 128 hidden_act = 'silu' attention_dropout = 0.0 max_position_embeddings = 4096 initializer_range = 0.02 rms_norm_eps = 1e-08 use_cache = True tie_word_embeddings = False rope_theta = 100000.0 pad_token_id = 3 eos_token_id = 2 bos_token_id = 1 attention_bias = False mlp_bias = False **kwargs )

引數

vocab_size (int, 可選, 預設為 48000) — Helium 模型的詞彙表大小。定義了在呼叫 HeliumModel 時，可以透過 inputs_ids 表示的不同詞元數量。
hidden_size (int, 可選, 預設為 2560) — 隱藏表示的維度。
intermediate_size (int, 可選, 預設為 7040) — MLP 表示的維度。
num_hidden_layers (int, 可選, 預設為 24) — Transformer 解碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 20) — Transformer 解碼器中每個注意力層的注意力頭數量。
num_key_value_heads (int, 可選, 預設為 20) — 這是用於實現分組查詢注意力 (Grouped Query Attention) 的鍵值頭 (key_value heads) 數量。如果 `num_key_value_heads=num_attention_heads`，模型將使用多頭注意力 (MHA)；如果 `num_key_value_heads=1`，模型將使用多查詢注意力 (MQA)；否則，將使用 GQA。當將多頭檢查點轉換為 GQA 檢查點時，每個分組的鍵和值頭應透過對該組內所有原始頭進行均值池化來構建。更多詳情，請參閱這篇論文。如果未指定，將預設為 `num_attention_heads`。
head_dim (int, 可選, 預設為 128) — 注意力頭的維度。
hidden_act (str 或 function, 可選, 預設為 "silu") — 舊版啟用函式。它被 `hidden_activation` 覆蓋。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
max_position_embeddings (int, 可選, 預設為 4096) — 此模型可能使用的最大序列長度。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
rms_norm_eps (float, 可選, 預設為 1e-08) — rms 歸一化層使用的 epsilon 值。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力（並非所有模型都使用）。僅在 `config.is_decoder=True` 時相關。
tie_word_embeddings (bool, 可選, 預設為 False) — 是否繫結詞嵌入權重
rope_theta (float, 可選, 預設為 100000.0) — RoPE 嵌入的基週期。
pad_token_id (int, 可選, 預設為 3) — 填充 token 的 ID。
eos_token_id (int | list, 可選, 預設為 2) — 序列結束 token 的 ID。
bos_token_id (int, 可選, 預設為 1) — 序列開始 token 的 ID。
attention_bias (bool, 可選, 預設為 False) — 是否在自注意力機制的查詢、鍵、值和輸出投影層中使用偏置。
mlp_bias (bool, 可選, 預設為 False) — 是否在 MLP 層的 up_proj、down_proj 和 gate_proj 層中使用偏置。

這是一個用於儲存 HeliumModel 配置的配置類。它根據指定的引數例項化一個 Helium 模型，定義模型架構。使用預設值例項化一個配置將產生與 Helium 2b 模型相似的配置，例如 kyutai/helium-2b。配置物件繼承自 PretrainedConfig，可用於控制模型輸出。請閱讀 PretrainedConfig 的文件以獲取更多資訊。

>>> from transformers import HeliumModel, HeliumConfig
>>> # Initializing a Helium 2b style configuration
>>> configuration = HeliumConfig()
>>> # Initializing a model from the Helium 2b style configuration
>>> model = HeliumModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

HeliumModel

class transformers.HeliumModel

< 來源 >

( config: HeliumConfig )

引數

config (HeliumConfig) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請查閱 from_pretrained() 方法來載入模型權重。

基礎的 Helium 模型，輸出原始的隱藏狀態，頂部沒有任何特定的頭。

該模型繼承自 PreTrainedModel。查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪注意力頭等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **flash_attn_kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] ) → transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列 token 的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲得索引。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值選自 [0, 1]：
- 1 表示 token 未被遮蔽，
- 0 表示 token 被遮蔽。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選自範圍 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常包括模型在解碼的上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 一個長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，將返回舊版快取格式。

如果使用了 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有為其提供過去鍵值狀態的 token），形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — （可選）不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量，這會很有用。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
cache_position (torch.LongTensor，形狀為 (sequence_length)，可選) — 描述輸入序列 token 在序列中位置的索引。與 position_ids 不同，該張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPast 或一個 `torch.FloatTensor` 的元組（如果傳遞了 `return_dict=False` 或 `config.return_dict=False`），包含各種元素，具體取決於配置 (HeliumConfig) 和輸入。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (Cache, 可選, 當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 kv 快取指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值，以及當 `config.is_encoder_decoder=True` 時在交叉注意力塊中的鍵和值），可用於（參見 `past_key_values` 輸入）加速序列解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — `torch.FloatTensor` 的元組（如果模型有嵌入層，一個是嵌入層的輸出，另外每個層都有一個輸出），形狀為 `(batch_size, sequence_length, hidden_size)`。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — `torch.FloatTensor` 的元組（每層一個），形狀為 `(batch_size, num_heads, sequence_length, sequence_length)`。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

HeliumModel 的 forward 方法會覆蓋 __call__ 特殊方法。

儘管前向傳播的邏輯需要在此函式內定義，但之後應呼叫 `Module` 例項而不是此函式，因為前者會處理執行前處理和後處理步驟，而後者會靜默地忽略它們。

HeliumForCausalLM

class transformers.HeliumForCausalLM

< 來源 >

( config: HeliumConfig )

引數

config (HeliumConfig) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請查閱 from_pretrained() 方法來載入模型權重。

用於因果語言建模的 Helium 模型。

該模型繼承自 PreTrainedModel。查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪注意力頭等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs: typing_extensions.Unpack[transformers.models.helium.modeling_helium.KwargsForCausalLM] ) → transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列 token 的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲得索引。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值選自 [0, 1]：
- 1 表示 token 未被遮蔽，
- 0 表示 token 被遮蔽。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選自範圍 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常包括模型在解碼的上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 一個長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳入 past_key_values，將返回舊版快取格式。

如果使用了 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有為其提供過去鍵值狀態的 token），形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — （可選）不傳遞 input_ids，而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量，這會很有用。
labels (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（參見 input_ids 文件字串）。索引設定為 -100 的 token 將被忽略（遮蔽），損失僅對標籤在 [0, ..., config.vocab_size] 範圍內的 token 計算。
use_cache (bool, 可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
cache_position (torch.LongTensor，形狀為 (sequence_length)，可選) — 描述輸入序列 token 在序列中位置的索引。與 position_ids 不同，該張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。
logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果是 int，則為最後的 logits_to_keep 個 token 計算 logits。如果為 0，則為所有 input_ids 計算 logits（特殊情況）。生成時只需要最後一個 token 的 logits，只為該 token 計算可以節省記憶體，這對於長序列或大詞彙表來說非常重要。如果是 torch.Tensor，則必須是一維的，對應於序列長度維度中要保留的索引。這在使用打包張量格式（批次和序列長度使用單一維度）時非常有用。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.CausalLMOutputWithPast 或一個 `torch.FloatTensor` 的元組（如果傳遞了 `return_dict=False` 或 `config.return_dict=False`），包含各種元素，具體取決於配置 (HeliumConfig) 和輸入。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (Cache, 可選, 當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 kv 快取指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — `torch.FloatTensor` 的元組（如果模型有嵌入層，一個是嵌入層的輸出，另外每個層都有一個輸出），形狀為 `(batch_size, sequence_length, hidden_size)`。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — `torch.FloatTensor` 的元組（每層一個），形狀為 `(batch_size, num_heads, sequence_length, sequence_length)`。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

HeliumForCausalLM 的 forward 方法會覆蓋 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, HeliumForCausalLM

>>> model = HeliumForCausalLM.from_pretrained("google/helium-7b")
>>> tokenizer = AutoTokenizer.from_pretrained("google/helium-7b")

>>> prompt = "What is your favorite condiment?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"What is your favorite condiment?"

HeliumForSequenceClassification

class transformers.HeliumForSequenceClassification

< 來源 >

( config: HeliumConfig )

引數

config (HeliumConfig) — 模型配置類，包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重，只會載入配置。請查閱 from_pretrained() 方法來載入模型權重。

帶有序列分類頭（線性層）的 Helium 模型 Transformer。

HeliumForSequenceClassification 使用最後一個 token 進行分類，與其他因果模型（例如 GPT-2）一樣。

由於它在最後一個 token 上進行分類，因此需要知道最後一個 token 的位置。如果在配置中定義了 pad_token_id，它會在每行中找到最後一個不是填充 token 的 token。如果沒有定義 pad_token_id，它會簡單地取批次中每行的最後一個值。由於當傳遞 inputs_embeds 而不是 input_ids 時無法猜測填充 token，它會做同樣的操作（取批次中每行的最後一個值）。

該模型繼承自 PreTrainedModel。查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪注意力頭等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 來源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 詞彙表中輸入序列 token 的索引。預設情況下將忽略填充。

可以使用 AutoTokenizer 獲得索引。詳情請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor，形狀為 (batch_size, sequence_length)，可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值選自 [0, 1]：
- 1 表示 token 未被遮蔽，
- 0 表示 token 被遮蔽。
什麼是注意力掩碼？
position_ids (torch.LongTensor，形狀為 (batch_size, sequence_length)，可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選自範圍 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預計算的隱藏狀態（自注意力和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常由模型在解碼的先前階段返回的 past_key_values 組成，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，其中每個元組有兩個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳遞 past_key_values，則將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有將其過去鍵值狀態提供給此模型的 input_ids），其形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，你可以選擇直接傳遞嵌入式表示，而不是傳遞 input_ids。如果你希望比模型內部的嵌入查詢矩陣更能控制如何將 input_ids 索引轉換為關聯向量，這會很有用。
labels (形狀為 (batch_size,) 的 torch.LongTensor, 可選) — 用於計算序列分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。

transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.SequenceClassifierOutputWithPast 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（HeliumConfig）和輸入包含各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
past_key_values (Cache, 可選, 當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。更多詳情請參閱我們的 kv 快取指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — `torch.FloatTensor` 的元組（如果模型有嵌入層，一個是嵌入層的輸出，另外每個層都有一個輸出），形狀為 `(batch_size, sequence_length, hidden_size)`。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — `torch.FloatTensor` 的元組（每層一個），形狀為 `(batch_size, num_heads, sequence_length, sequence_length)`。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

HeliumForSequenceClassification 的 forward 方法重寫了 __call__ 特殊方法。

單標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, HeliumForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("kyutai/helium-2b")
>>> model = HeliumForSequenceClassification.from_pretrained("kyutai/helium-2b")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = HeliumForSequenceClassification.from_pretrained("kyutai/helium-2b", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, HeliumForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("kyutai/helium-2b")
>>> model = HeliumForSequenceClassification.from_pretrained("kyutai/helium-2b", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = HeliumForSequenceClassification.from_pretrained(
...     "kyutai/helium-2b", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

HeliumForTokenClassification

class transformers.HeliumForTokenClassification

< 原始碼 >

( config: HeliumConfig )

引數

config (HeliumConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型關聯的權重，只會載入配置。檢視 from_pretrained() 方法以載入模型權重。

Helium transformer 模型，頂部帶有一個 token 分類頭（一個線性層位於隱藏狀態輸出之上），例如用於命名實體識別 (NER) 任務。

該模型繼承自 PreTrainedModel。查閱超類文件以瞭解該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪注意力頭等）。

該模型也是一個 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 原始碼 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下，填充將被忽略。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 用於避免對填充 token 索引執行注意力的掩碼。掩碼值選自 [0, 1]：
- 1 表示 token 未被遮蔽，
- 0 表示 token 被遮蔽。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預計算的隱藏狀態（自注意力和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常由模型在解碼的先前階段返回的 past_key_values 組成，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，其中每個元組有兩個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果沒有傳遞 past_key_values，則將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇只輸入最後一個 input_ids（那些沒有將其過去鍵值狀態提供給此模型的 input_ids），其形狀為 (batch_size, 1)，而不是所有形狀為 (batch_size, sequence_length) 的 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，你可以選擇直接傳遞嵌入式表示，而不是傳遞 input_ids。如果你希望比模型內部的嵌入查詢矩陣更能控制如何將 input_ids 索引轉換為關聯向量，這會很有用。
labels (形狀為 (batch_size,) 的 torch.LongTensor, 可選) — 用於計算序列分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.TokenClassifierOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（HeliumConfig）和輸入包含各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失。
logits (形狀為 (batch_size, sequence_length, config.num_labels) 的 torch.FloatTensor) — 分類分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — `torch.FloatTensor` 的元組（如果模型有嵌入層，一個是嵌入層的輸出，另外每個層都有一個輸出），形狀為 `(batch_size, sequence_length, hidden_size)`。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — `torch.FloatTensor` 的元組（每層一個），形狀為 `(batch_size, num_heads, sequence_length, sequence_length)`。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

HeliumForTokenClassification 的 forward 方法重寫了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, HeliumForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("kyutai/helium-2b")
>>> model = HeliumForTokenClassification.from_pretrained("kyutai/helium-2b")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
...

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

< > 在 GitHub 上更新

←GraniteMoeShared HerBERT→