Transformers 文件

GraniteMoe

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

GraniteMoe

PyTorch FlashAttention SDPA

概述

GraniteMoe 模型由 Yikang Shen, Matthew Stallone, Mayank Mishra, Gaoyuan Zhang, Shawn Tan, Aditya Prasad, Adriana Meza Soria, David D. Cox 和 Rameswar Panda 在論文 Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler 中提出。

PowerMoE-3B 是一個 3B 引數的稀疏專家混合(sMoE)語言模型,採用 Power 學習率排程器進行訓練。它為每個詞元稀疏地啟用 8 億個引數。該模型在開源和專有資料集的混合資料上進行訓練。PowerMoE-3B 在各種基準測試中,包括自然語言多項選擇、程式碼生成和數學推理,與啟用引數量為 2 倍的其他密集模型相比,表現出了有希望的結果。

論文摘要如下:

為語言模型預訓練尋找最優學習率是一項具有挑戰性的任務。這不僅是因為學習率、批次大小、訓練詞元數量、模型大小和其他超引數之間存在複雜的相關性,還因為對擁有數十億或數萬億引數的大型語言模型進行超引數搜尋的成本高得令人望而卻步。最近的研究建議使用小型代理模型和小語料庫進行超引數搜尋,並將最優引數轉移到大型模型和大型語料庫上。雖然模型大小相關超引數(如深度和寬度)的零樣本遷移能力在理論上和經驗上都得到了證明,但從小語料庫到大語料庫的零樣本遷移尚未得到充分探索。在本文中,我們研究了最近提出的 WSD 排程器中,最優學習率、批次大小和訓練詞元數量之間的相關性。經過數千次小規模實驗,我們發現了變數之間的冪律關係,並證明了其在不同模型大小上的可遷移性。基於這一觀察,我們提出了一種新的學習率排程器——Power 排程器,它對訓練詞元數量和批次大小無關。實驗表明,將 Power 排程器與最大更新引數化(\mup)相結合,無論訓練詞元數量、批次大小、模型大小甚至模型架構如何,都可以用一組超引數持續獲得令人印象深刻的效能。我們用 Power 排程器訓練的 3B 密集模型和 MoE 模型,其效能可與最先進的小型語言模型相媲美。我們開源了這些預訓練模型。

技巧

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "ibm/PowerMoE-3b"
tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")
model.eval()

# change input text as desired
prompt = "Write a code to find the maximum value in a list of numbers."

# tokenize the text
input_tokens = tokenizer(prompt, return_tensors="pt")
# generate output tokens
output = model.generate(**input_tokens, max_new_tokens=100)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# loop over the batch to print, in this example the batch size is 1
for i in output:
    print(i)

該模型由 mayank-mishra 貢獻。

GraniteMoeConfig

class transformers.GraniteMoeConfig

< >

( vocab_size = 32000 hidden_size = 4096 intermediate_size = 11008 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = None hidden_act = 'silu' max_position_embeddings = 2048 initializer_range = 0.02 rms_norm_eps = 1e-06 use_cache = True pad_token_id = None bos_token_id = 1 eos_token_id = 2 tie_word_embeddings = False rope_theta = 10000.0 rope_scaling = None attention_bias = False attention_dropout = 0.0 embedding_multiplier = 1.0 logits_scaling = 1.0 residual_multiplier = 1.0 attention_multiplier = 1.0 num_local_experts = 8 num_experts_per_tok = 2 output_router_logits = False router_aux_loss_coef = 0.001 **kwargs )

引數

  • vocab_size (int, optional, 預設為 32000) — GraniteMoe 模型的詞彙表大小。定義了在呼叫 GraniteMoeModel 時,可以透過 inputs_ids 表示的不同詞元的數量。
  • hidden_size (int, optional, 預設為 4096) — 隱藏表示的維度。
  • intermediate_size (int, optional, 預設為 11008) — MLP 表示的維度。
  • num_hidden_layers (int, optional, 預設為 32) — Transformer 解碼器中的隱藏層數量。
  • num_attention_heads (int, optional, 預設為 32) — Transformer 解碼器中每個注意力層的注意力頭數量。
  • num_key_value_heads (int, optional) — 這是用於實現分組查詢注意力(Grouped Query Attention)的鍵值頭數量。如果 num_key_value_heads=num_attention_heads,模型將使用多頭注意力(MHA);如果 num_key_value_heads=1,模型將使用多查詢注意力(MQA);否則將使用 GQA。將多頭檢查點轉換為 GQA 檢查點時,每個分組的鍵和值頭應透過對該組內所有原始頭進行均值池化來構建。更多詳情請參閱 這篇論文。如果未指定,將預設為 num_attention_heads
  • hidden_act (strfunction, optional, 預設為 "silu") — 解碼器中的非線性啟用函式(函式或字串)。
  • max_position_embeddings (int, optional, 預設為 2048) — 該模型可能使用的最大序列長度。
  • initializer_range (float, optional, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態分佈初始化器的標準差。
  • rms_norm_eps (float, optional, 預設為 1e-06) — rms 歸一化層使用的 epsilon 值。
  • use_cache (bool, optional, 預設為 True) — 模型是否應返回最後一個鍵/值注意力(並非所有模型都使用)。僅當 config.is_decoder=True 時相關。
  • pad_token_id (int, optional) — 填充詞元 ID。
  • bos_token_id (int, optional, 預設為 1) — 序列開始詞元 ID。
  • eos_token_id (int, optional, 預設為 2) — 序列結束詞元 ID。
  • tie_word_embeddings (bool, optional, 預設為 False) — 是否繫結詞嵌入權重。
  • rope_theta (float, optional, 預設為 10000.0) — RoPE 嵌入的基礎週期。
  • rope_scaling (Dict, optional) — 包含 RoPE 嵌入縮放配置的字典。目前支援兩種縮放策略:線性和動態。它們的縮放因子必須是大於 1 的浮點數。預期格式為 {"type": 策略名稱, "factor": 縮放因子}。使用此標誌時,不要將 max_position_embeddings 更新為預期的新最大值。有關這些縮放策略行為的更多資訊,請參閱以下帖子: https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/。這是一個實驗性功能,未來版本中可能會有破壞性的 API 變更。
  • attention_bias (bool, optional, 預設為 False) — 在自注意力期間是否在查詢、鍵、值和輸出投影層中使用偏置。
  • attention_dropout (float, optional, 預設為 0.0) — 注意力機率的 dropout 比率。
  • embedding_multiplier (float, optional, 預設為 1.0) — 嵌入乘數。
  • logits_scaling (float, optional, 預設為 1.0) — 輸出 logits 的除數。
  • residual_multiplier (float, optional, 預設為 1.0) — 殘差乘數。
  • attention_multiplier (float, optional, 預設為 1.0) — 注意力乘數。
  • num_local_experts (int, optional, 預設為 8) — 專家總數。
  • num_experts_per_tok (int, 可選, 預設為 2) — 每個 token 的專家數量
  • output_router_logits (bool, 可選, 預設為 False) — 模型是否應返回路由器的 logits。啟用此選項也會允許模型輸出輔助損失。
  • router_aux_loss_coef (float, 可選, 預設為 0.001) — 路由器輔助損失係數

這是一個用於儲存 GraniteMoeModel 配置的配置類。它用於根據指定的引數例項化一個 GraniteMoe 模型,定義模型架構。使用預設值例項化配置將產生與 GraniteMoe-3B 類似的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。請閱讀 PretrainedConfig 的文件以獲取更多資訊。

>>> from transformers import GraniteMoeModel, GraniteMoeConfig

>>> # Initializing a GraniteMoe granitemoe-3b style configuration
>>> configuration = GraniteMoeConfig()

>>> # Initializing a model from the granitemoe-7b style configuration
>>> model = GraniteMoeModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

GraniteMoeModel

class transformers.GraniteMoeModel

< >

( config: GraniteMoeConfig )

引數

  • config (GraniteMoeConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

裸的 Granitemoe 模型,輸出原始的隱藏狀態,頂部沒有任何特定的頭。

此模型繼承自 PreTrainedModel。請查閱超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

此模型也是 PyTorch torch.nn.Module 的子類。可以像常規的 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與常規用法和行為相關的事項。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_router_logits: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.BaseModelOutputWithPasttuple(torch.FloatTensor)

引數

  • input_ids (形狀為 (batch_size, sequence_length)torch.LongTensor, 可選) — 詞彙表中輸入序列標記的索引。預設情況下將忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (形狀為 (batch_size, sequence_length)torch.Tensor, 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值選自 [0, 1]

    • 1 表示標記未被遮蓋
    • 0 表示標記被遮蓋

    什麼是注意力掩碼?

  • position_ids (形狀為 (batch_size, sequence_length)torch.LongTensor, 可選) — 每個輸入序列標記在位置嵌入中的位置索引。選值範圍為 [0, config.n_positions - 1]

    什麼是位置 ID?

  • past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 預計算的隱藏狀態(自注意力和交叉注意力塊中的鍵和值),可用於加速序列解碼。這通常包括模型在先前解碼階段返回的 past_key_values,當 use_cache=Trueconfig.use_cache=True 時。

    允許兩種格式:

    • Cache 例項,請參閱我們的 kv 快取指南
    • 長度為 config.n_layerstuple(torch.FloatTensor) 元組,每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為舊版快取格式。

    模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values,將返回舊版快取格式。

    如果使用 past_key_values,使用者可以選擇只輸入最後一個 input_ids(那些沒有為其提供過去鍵值狀態的標記),形狀為 (batch_size, 1),而不是所有形狀為 (batch_size, sequence_length)input_ids

  • inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size)torch.FloatTensor, 可選) — 可選地,你可以選擇直接傳遞嵌入表示而不是 input_ids。如果你希望比模型內部的嵌入查詢矩陣更能控制如何將 input_ids 索引轉換為關聯向量,這會很有用。
  • use_cache (bool, 可選) — 如果設定為 True,則返回 past_key_values 鍵值狀態,可用於加速解碼(請參閱 past_key_values)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • output_router_logits (bool, 可選) — 是否返回所有路由器的 logits。它們對於計算路由器損失很有用,在推理過程中不應返回。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
  • cache_position (形狀為 (sequence_length)torch.LongTensor, 可選) — 描述輸入序列標記在序列中位置的索引。與 position_ids 相反,此張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。

返回

transformers.modeling_outputs.BaseModelOutputWithPasttuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPast 或一個 `torch.FloatTensor` 元組(如果傳遞了 `return_dict=False` 或當 `config.return_dict=False` 時),根據配置(GraniteMoeConfig)和輸入包含各種元素。

  • last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

    如果使用了 past_key_values,則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。

  • past_key_values (Cache, 可選, 在傳遞 use_cache=Trueconfig.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊,請參閱我們的 kv 快取指南

    包含預計算的隱藏狀態(自注意塊中的鍵和值,以及在 `config.is_encoder_decoder=True` 時交叉注意塊中的鍵和值),可用於(請參閱 `past_key_values` 輸入)加速序列解碼。

  • hidden_states (tuple(torch.FloatTensor), 可選, 在傳遞 `output_hidden_states=True` 或 `config.output_hidden_states=True` 時返回) — `torch.FloatTensor` 的元組(如果模型有嵌入層,則一個為嵌入層的輸出,+ 每個層的輸出一個),形狀為 `(batch_size, sequence_length, hidden_size)`。

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor), 可選, 在傳遞 `output_attentions=True` 或 `config.output_attentions=True` 時返回) — `torch.FloatTensor` 的元組(每層一個),形狀為 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

GraniteMoeModel 的 forward 方法,重寫了 `__call__` 特殊方法。

雖然前向傳播的配方需要在此函式內定義,但之後應呼叫 `Module` 例項而不是此函式,因為前者會處理執行前處理和後處理步驟,而後者會默默地忽略它們。

GraniteMoeForCausalLM

class transformers.GraniteMoeForCausalLM

< >

( config: GraniteMoeConfig )

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, list[torch.FloatTensor], NoneType] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None output_router_logits: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs ) transformers.modeling_outputs.MoeCausalLMOutputWithPasttuple(torch.FloatTensor)

引數

  • input_ids (形狀為 (batch_size, sequence_length)torch.LongTensor, 可選) — 詞彙表中輸入序列標記的索引。預設情況下將忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (形狀為 (batch_size, sequence_length)torch.Tensor, 可選) — 用於避免對填充標記索引執行注意力的掩碼。掩碼值選自 [0, 1]

    • 1 表示標記未被遮蓋
    • 0 表示標記被遮蓋

    什麼是注意力掩碼?

  • position_ids (形狀為 (batch_size, sequence_length)torch.LongTensor, 可選) — 每個輸入序列標記在位置嵌入中的位置索引。選值範圍為 [0, config.n_positions - 1]

    什麼是位置 ID?

  • past_key_values (Union[~cache_utils.Cache, list[torch.FloatTensor], NoneType]) — 預計算的隱藏狀態(自注意力和交叉注意力塊中的鍵和值),可用於加速序列解碼。這通常包括模型在先前解碼階段返回的 past_key_values,當 use_cache=Trueconfig.use_cache=True 時。

    允許兩種格式:

    • Cache 例項,請參閱我們的 kv 快取指南
    • 長度為 config.n_layerstuple(torch.FloatTensor) 元組,每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為舊版快取格式。

    模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values,將返回舊版快取格式。

    如果使用 past_key_values,使用者可以選擇只輸入最後一個 input_ids(那些沒有為其提供過去鍵值狀態的標記),形狀為 (batch_size, 1),而不是所有形狀為 (batch_size, sequence_length)input_ids

  • inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size)torch.FloatTensor, 可選) — 可選地,你可以選擇直接傳遞嵌入表示而不是 input_ids。如果你希望比模型內部的嵌入查詢矩陣更能控制如何將 input_ids 索引轉換為關聯向量,這會很有用。
  • labels (形狀為 (batch_size, sequence_length)torch.LongTensor, 可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間(請參閱 input_ids 文件字串)。索引設定為 -100 的標記將被忽略(遮蓋),損失僅對標籤在 [0, ..., config.vocab_size] 內的標記計算。
  • use_cache (bool, 可選) — 如果設定為 True,則返回 past_key_values 鍵值狀態,可用於加速解碼(請參閱 past_key_values)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • output_router_logits (bool, 可選) — 是否返回所有路由器的 logits。它們對於計算路由器損失很有用,在推理過程中不應返回。
  • return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。
  • cache_position (形狀為 (sequence_length)torch.LongTensor, 可選) — 描述輸入序列標記在序列中位置的索引。與 position_ids 相反,此張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。
  • logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果是 int,則計算最後 logits_to_keep 個標記的 logits。如果為 0,則計算所有 input_ids 的 logits(特殊情況)。生成時只需要最後一個標記的 logits,僅為此標記計算 logits 可以節省記憶體,這對於長序列或大詞彙表大小變得非常重要。如果是 torch.Tensor,則必須是一維的,對應於序列長度維度中要保留的索引。這在使用打包張量格式(批處理和序列長度的單個維度)時非常有用。

返回

transformers.modeling_outputs.MoeCausalLMOutputWithPasttuple(torch.FloatTensor)

一個 transformers.modeling_outputs.MoeCausalLMOutputWithPast 或一個 `torch.FloatTensor` 元組(如果傳遞了 `return_dict=False` 或當 `config.return_dict=False` 時),根據配置(GraniteMoeConfig)和輸入包含各種元素。

  • loss (torch.FloatTensor 形狀為 (1,)可選,當提供 labels 時返回) — 語言建模損失(用於下一個 token 預測)。

  • logits (形狀為 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。

  • aux_loss (torch.FloatTensor可選,當提供 labels 時返回) — 稀疏模組的輔助損失。

  • router_logits (tuple(torch.FloatTensor), 可選, 在傳遞 output_router_probs=Trueconfig.add_router_probs=Trueconfig.output_router_probs=True 時返回) — `torch.FloatTensor` 的元組(每層一個),形狀為 `(batch_size, sequence_length, num_experts)`。

    由 MoE 路由器計算的原始路由器對數(softmax 後),這些術語用於計算專家混合模型的輔助損失。

  • past_key_values (Cache, 可選, 在傳遞 use_cache=Trueconfig.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊,請參閱我們的 kv 快取指南

    包含預計算的隱藏狀態(自注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • hidden_states (tuple(torch.FloatTensor), 可選, 在傳遞 `output_hidden_states=True` 或 `config.output_hidden_states=True` 時返回) — `torch.FloatTensor` 的元組(如果模型有嵌入層,則一個為嵌入層的輸出,+ 每個層的輸出一個),形狀為 `(batch_size, sequence_length, hidden_size)`。

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor), 可選, 在傳遞 `output_attentions=True` 或 `config.output_attentions=True` 時返回) — `torch.FloatTensor` 的元組(每層一個),形狀為 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

GraniteMoeForCausalLM 的 forward 方法,重寫了 `__call__` 特殊方法。

雖然前向傳播的配方需要在此函式內定義,但之後應呼叫 `Module` 例項而不是此函式,因為前者會處理執行前處理和後處理步驟,而後者會默默地忽略它們。

示例

>>> from transformers import AutoTokenizer, GraniteMoeForCausalLM

>>> model = GraniteMoeForCausalLM.from_pretrained("ibm/PowerMoE-3b")
>>> tokenizer = AutoTokenizer.from_pretrained("ibm/PowerMoE-3b")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.