Transformers 文件

OLMo

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

OLMo

PyTorch FlashAttention SDPA

概述

OLMo模型由Dirk Groeneveld、Iz Beltagy、Pete Walsh、Akshita Bhagia、Rodney Kinney、Oyvind Tafjord、Ananya Harsh Jha、Hamish Ivison、Ian Magnusson、Yizhong Wang、Shane Arora、David Atkinson、Russell Authur、Khyathi Raghavi Chandu、Arman Cohan、Jennifer Dumas、Yanai Elazar、Yuling Gu、Jack Hessel、Tushar Khot、William Merrill、Jacob Morrison、Niklas Muennighoff、Aakanksha Naik、Crystal Nam、Matthew E. Peters、Valentina Pyatkin、Abhilasha Ravichander、Dustin Schwenk、Saurabh Shah、Will Smith、Emma Strubell、Nishant Subramani、Mitchell Wortsman、Pradeep Dasigi、Nathan Lambert、Kyle Richardson、Luke Zettlemoyer、Jesse Dodge、Kyle Lo、Luca Soldaini、Noah A. Smith和Hannaneh Hajishirzi在論文《OLMo: Accelerating the Science of Language Models》中提出。

OLMo是一系列型 (Open Language Models),旨在推動語言模型的科學研究。OLMo模型在Dolma資料集上進行訓練。我們釋出了訓練這些模型所涉及的所有程式碼、檢查點、日誌(即將推出)和細節。

論文摘要如下:

語言模型(LMs)在自然語言處理研究和商業產品中已無處不在。隨著其商業重要性的激增,最強大的模型變得封閉,被專有介面所限制,其訓練資料、架構和開發的關鍵細節均未公開。鑑於這些細節對於科學研究這些模型(包括其偏見和潛在風險)至關重要,我們認為研究社群能夠接觸到強大的、真正開放的語言模型是必不可少的。為此,本技術報告詳細介紹了OLMo的首次釋出,這是一個先進的、真正開放的語言模型及其框架,用於構建和研究語言建模的科學。與以往大多數只發布模型權重和推理程式碼的工作不同,我們釋出了OLMo及其整個框架,包括訓練資料以及訓練和評估程式碼。我們希望這次釋出能夠賦能並加強開放研究社群,並激發新一輪的創新浪潮。

該模型由shanearora貢獻。原始程式碼可以在這裡找到。

OlmoConfig

class transformers.OlmoConfig

< >

( vocab_size = 50304 hidden_size = 4096 intermediate_size = 11008 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = None hidden_act = 'silu' max_position_embeddings = 2048 initializer_range = 0.02 use_cache = True pad_token_id = 1 bos_token_id = None eos_token_id = 50279 tie_word_embeddings = False rope_theta = 10000.0 rope_scaling = None attention_bias = False attention_dropout = 0.0 clip_qkv = None **kwargs )

引數

  • vocab_size (int, 可選, 預設為 50304) — OLMo 模型的詞彙表大小。定義了在呼叫 OlmoModel 時,inputs_ids 可以表示的不同詞元的數量。
  • hidden_size (int, 可選, 預設為 4096) — 隱藏表示的維度。
  • intermediate_size (int, 可選, 預設為 11008) — MLP 表示的維度。
  • num_hidden_layers (int, 可選, 預設為 32) — Transformer 解碼器中的隱藏層數量。
  • num_attention_heads (int, 可選, 預設為 32) — Transformer 解碼器中每個注意力層的注意力頭數量。
  • num_key_value_heads (int, 可選) — 這是用於實現分組查詢注意力(Grouped Query Attention)的鍵值頭數量。如果 `num_key_value_heads=num_attention_heads`,模型將使用多頭注意力(MHA);如果 `num_key_value_heads=1`,模型將使用多查詢注意力(MQA);否則使用GQA。當將多頭檢查點轉換為GQA檢查點時,每個分組的鍵和值頭應透過對該組內所有原始頭進行均值池化來構建。更多細節,請檢視這篇論文。如果未指定,將預設為 `num_attention_heads`。
  • hidden_act (strfunction, 可選, 預設為 "silu") — 解碼器中的非線性啟用函式(函式或字串)。
  • max_position_embeddings (int, 可選, 預設為 2048) — 該模型可能使用的最大序列長度。
  • initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
  • use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後一個鍵/值注意力(並非所有模型都使用)。僅在 `config.is_decoder=True` 時相關。
  • pad_token_id (int, 可選, 預設為 1) — 填充詞元 ID。
  • bos_token_id (int, 可選) — 序列開始詞元 ID。
  • eos_token_id (int, 可選, 預設為 50279) — 序列結束詞元 ID。
  • tie_word_embeddings (bool, 可選, 預設為 False) — 是否繫結詞嵌入權重。
  • rope_theta (float, 可選, 預設為 10000.0) — RoPE 嵌入的基礎週期。
  • rope_scaling (Dict, 可選) — 包含 RoPE 嵌入縮放配置的字典。目前支援兩種縮放策略:線性和動態。它們的縮放因子必須是大於1的浮點數。預期格式為 `{"type": 策略名稱, "factor": 縮放因子}`。使用此標誌時,不要將 `max_position_embeddings` 更新為預期的新最大值。有關這些縮放策略行為的更多資訊,請參閱以下討論串:https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/。這是一個實驗性功能,未來版本中可能會有破壞性的 API 更改。
  • attention_bias (bool, 預設為 False, 可選, 預設為 False) — 是否在自注意力過程中的查詢、鍵、值和輸出投影層中使用偏置。
  • attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
  • clip_qkv (float, 可選) — 如果不為 `None`,查詢、鍵和值注意力狀態的元素將被裁剪,使其絕對值不超過此值。

這是用於儲存 OlmoModel 配置的配置類。它用於根據指定的引數例項化 OLMo 模型,定義模型架構。使用預設值例項化配置將產生與 allenai/OLMo-7B-hf 類似的配置。

配置物件繼承自 PretrainedConfig,可用於控制模型輸出。有關更多資訊,請閱讀 PretrainedConfig 的文件。

>>> from transformers import OlmoModel, OlmoConfig

>>> # Initializing a OLMo 7B style configuration
>>> configuration = OlmoConfig()

>>> # Initializing a model from the OLMo 7B style configuration
>>> model = OlmoModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

OlmoModel

class transformers.OlmoModel

< >

( config: OlmoConfig )

引數

  • config (OlmoConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型關聯的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

裸的 Olmo 模型,輸出原始的隱藏狀態,沒有任何特定的頭部。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **flash_attn_kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] ) transformers.modeling_outputs.BaseModelOutputWithPasttuple(torch.FloatTensor)

引數

  • input_ids (torch.LongTensor,形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列詞元的索引。預設情況下,填充將被忽略。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (torch.Tensor,形狀為 (batch_size, sequence_length), 可選) — 用於避免對填充詞元索引執行注意力的掩碼。掩碼值選自 [0, 1]

    • 1 表示詞元未被遮蔽
    • 0 表示詞元被遮蔽

    什麼是注意力掩碼?

  • position_ids (torch.LongTensor,形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列詞元在位置嵌入中的位置索引。選自範圍 [0, config.n_positions - 1]

    什麼是位置 ID?

  • past_key_values (~cache_utils.Cache, 可選) — 預計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於加速序列解碼。這通常由模型在解碼的先前階段返回的 past_key_values 組成,此時 use_cache=Trueconfig.use_cache=True

    允許兩種格式:

    • Cache 例項,請參閱我們的 kv 快取指南
    • 長度為 config.n_layerstuple(torch.FloatTensor) 元組,其中每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為舊版快取格式。

    模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values,將返回舊版快取格式。

    如果使用 past_key_values,使用者可以選擇只輸入形狀為 (batch_size, 1) 的最後一個 input_ids(即那些沒有將其過去鍵值狀態提供給此模型的輸入),而不是形狀為 (batch_size, sequence_length) 的所有 input_ids

  • inputs_embeds (torch.FloatTensor,形狀為 (batch_size, sequence_length, hidden_size)可選) — 可選地,你可以不傳遞 input_ids,而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量,這會很有用。
  • use_cache (bool, 可選) — 如果設定為 True,將返回 past_key_values 鍵值狀態,並可用於加速解碼(請參閱 past_key_values)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • cache_position (torch.LongTensor,形狀為 (sequence_length)可選) — 描述輸入序列詞元在序列中位置的索引。與 position_ids 相反,此張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。

返回

transformers.modeling_outputs.BaseModelOutputWithPasttuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPast 或一個 torch.FloatTensor 元組(如果傳遞了 return_dict=Falseconfig.return_dict=False),根據配置 (OlmoConfig) 和輸入包含各種元素。

  • last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

    如果使用了 past_key_values,則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。

  • past_key_values (Cache, 可選, 當傳遞 use_cache=Trueconfig.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊,請參閱我們的 kv 快取指南

    包含預計算的隱藏狀態(自注意力塊中的鍵和值,如果 config.is_encoder_decoder=True,則還包括交叉注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速序列解碼。

  • hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=Trueconfig.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每層輸出)。

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=Trueconfig.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元組(每層一個)。

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

OlmoModel 的 forward 方法,重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 Module 例項而不是此函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。

OlmoForCausalLM

class transformers.OlmoForCausalLM

< >

( config )

引數

  • config (OlmoForCausalLM) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型關聯的權重,只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

用於因果語言建模的 Olmo 模型。

該模型繼承自 PreTrainedModel。請檢視超類文件以瞭解該庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規 PyTorch 模組一樣使用它,並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs: typing_extensions.Unpack[transformers.models.olmo.modeling_olmo.KwargsForCausalLM] ) transformers.modeling_outputs.CausalLMOutputWithPasttuple(torch.FloatTensor)

引數

  • input_ids (torch.LongTensor,形狀為 (batch_size, sequence_length)可選) — 詞彙表中輸入序列詞元的索引。預設情況下將忽略填充。

    可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什麼是輸入 ID?

  • attention_mask (torch.Tensor,形狀為 (batch_size, sequence_length)可選) — 用於避免在填充詞元索引上執行注意力的掩碼。掩碼值選自 [0, 1]

    • 1 表示未被遮蔽的詞元,
    • 0 表示被遮蔽的詞元。

    什麼是注意力掩碼?

  • position_ids (torch.LongTensor,形狀為 (batch_size, sequence_length)可選) — 位置嵌入中每個輸入序列詞元的位置索引。選自範圍 [0, config.n_positions - 1]

    什麼是位置 ID?

  • past_key_values (~cache_utils.Cache, 可選) — 預計算的隱藏狀態(自注意力塊和交叉注意力塊中的鍵和值),可用於加速序列解碼。這通常由模型在解碼的先前階段返回的 past_key_values 組成,此時 use_cache=Trueconfig.use_cache=True

    允許兩種格式:

    • Cache 例項,請參閱我們的 kv 快取指南
    • 長度為 config.n_layerstuple(torch.FloatTensor) 元組,其中每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也稱為舊版快取格式。

    模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values,將返回舊版快取格式。

    如果使用 past_key_values,使用者可以選擇只輸入形狀為 (batch_size, 1) 的最後一個 input_ids(即那些沒有將其過去鍵值狀態提供給此模型的輸入),而不是形狀為 (batch_size, sequence_length) 的所有 input_ids

  • inputs_embeds (torch.FloatTensor,形狀為 (batch_size, sequence_length, hidden_size)可選) — 可選地,你可以不傳遞 input_ids,而是直接傳遞嵌入表示。如果你想比模型內部的嵌入查詢矩陣更好地控制如何將 input_ids 索引轉換為關聯向量,這會很有用。
  • labels (torch.LongTensor,形狀為 (batch_size, sequence_length)可選) — 用於計算掩碼語言建模損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間(參見 input_ids 文件字串)。索引設定為 -100 的詞元將被忽略(遮蔽),損失僅對標籤在 [0, ..., config.vocab_size] 內的詞元計算。
  • use_cache (bool, 可選) — 如果設定為 True,將返回 past_key_values 鍵值狀態,並可用於加速解碼(請參閱 past_key_values)。
  • output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的 attentions
  • output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的 hidden_states
  • cache_position (torch.LongTensor,形狀為 (sequence_length)可選) — 描述輸入序列詞元在序列中位置的索引。與 position_ids 相反,此張量不受填充影響。它用於在正確的位置更新快取並推斷完整的序列長度。
  • logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果是 int,則為最後的 logits_to_keep 個詞元計算 logits。如果是 0,則為所有 input_ids 計算 logits(特殊情況)。生成時只需要最後一個詞元的 logits,僅為此詞元計算可以節省記憶體,這對於長序列或大詞彙表來說非常重要。如果是 torch.Tensor,則必須是一維的,對應於序列長度維度中要保留的索引。這在使用打包張量格式(批次和序列長度使用單一維度)時很有用。

返回

transformers.modeling_outputs.CausalLMOutputWithPasttuple(torch.FloatTensor)

一個 transformers.modeling_outputs.CausalLMOutputWithPast 或一個 torch.FloatTensor 元組(如果傳遞了 return_dict=Falseconfig.return_dict=False),根據配置 (OlmoConfig) 和輸入包含各種元素。

  • loss (torch.FloatTensor 形狀為 (1,)可選,當提供 labels 時返回) — 語言建模損失(用於下一個 token 預測)。

  • logits (形狀為 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。

  • past_key_values (Cache, 可選, 當傳遞 use_cache=Trueconfig.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊,請參閱我們的 kv 快取指南

    包含預計算的隱藏狀態(自注意力塊中的鍵和值),可用於(參見 past_key_values 輸入)加速順序解碼。

  • hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=Trueconfig.output_hidden_states=True 時返回) — 形狀為 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每層輸出)。

    模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

  • attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=Trueconfig.output_attentions=True 時返回) — 形狀為 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元組(每層一個)。

    注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。

OlmoForCausalLM 的 forward 方法,重寫了 __call__ 特殊方法。

儘管前向傳播的流程需要在此函式內定義,但之後應該呼叫 Module 例項而不是此函式,因為前者會處理執行前處理和後處理步驟,而後者會靜默地忽略它們。

示例

>>> from transformers import AutoTokenizer, OlmoForCausalLM

>>> model = OlmoForCausalLM.from_pretrained("meta-olmo/Olmo-2-7b-hf")
>>> tokenizer = AutoTokenizer.from_pretrained("meta-olmo/Olmo-2-7b-hf")

>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.