Transformers 文件

Persimmon

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Persimmon

概述

Persimmon 模型由 ADEPT 建立，由 Erich Elsen、Augustus Odena、Maxwell Nye、Sağnak Taşırlar、Tri Dao、Curtis Hawthorne、Deepak Moparthi、Arushi Somani 撰寫。

作者介紹了 Persimmon-8B，一個基於經典 transformer 架構的解碼器模型，具有查詢和鍵歸一化。Persimmon-8B 是一個完全許可的模型，擁有大約 80 億個引數，在 Apache 許可證下發布。Persimmon-8B 的一些關鍵屬性包括長上下文大小 (16K)、效能和多模態擴充套件能力。

作者展示了他們模型評估的方法，重點關注實際文字生成，模擬使用者如何與語言模型互動。這項工作還包括一項比較分析，將 Persimmon-8B 與其他突出模型（MPT 7B Instruct 和 Llama 2 Base 7B 1-Shot）在各種評估任務中進行對比。結果表明，即使在有限的訓練資料下，Persimmon-8B 也表現出具有競爭力的效能。

在模型細節方面，這項工作概述了 Persimmon-8B 的架構和訓練方法，提供了對其設計選擇、序列長度和資料集組成的見解。作者提出了一種快速推理程式碼，透過運算子融合和 CUDA 圖利用率優於傳統實現，同時保持程式碼連貫性。他們表達了對社群如何利用這一貢獻推動創新的期待，並暗示將作為正在進行的一系列開發的一部分，推出進一步的後續版本。

此模型由 ArthurZ 貢獻。原始程式碼可在此處找到。

使用技巧

Persimmon 模型使用 bfloat16 訓練，但原始推理使用 float16。Hub 上傳的檢查點使用 torch_dtype = 'float16'，AutoModel API 將使用它將檢查點從 torch.float32 轉換為 torch.float16。

線上權重的 dtype 大多無關緊要，除非您在使用 model = AutoModelForCausalLM.from_pretrained("path", torch_dtype = "auto") 初始化模型時使用 torch_dtype="auto"。原因是模型會首先下載（使用線上檢查點的 dtype），然後會將其轉換為 torch 的預設 dtype（變為 torch.float32）。使用者應指定他們想要的 torch_dtype，如果未指定，它將是 torch.float32。

不建議使用 float16 微調模型，已知這會產生 nan，因此模型應使用 bfloat16 進行微調。

技巧

要轉換模型，您需要使用 git clone https://github.com/persimmon-ai-labs/adept-inference 克隆原始儲存庫，然後獲取檢查點

git clone https://github.com/persimmon-ai-labs/adept-inference
wget https://axtkn4xl5cip.objectstorage.us-phoenix-1.oci.customer-oci.com/n/axtkn4xl5cip/b/adept-public-data/o/8b_base_model_release.tar
tar -xvf 8b_base_model_release.tar
python src/transformers/models/persimmon/convert_persimmon_weights_to_hf.py  --input_dir /path/to/downloaded/persimmon/weights/ --output_dir /output/path \
    --pt_model_path /path/to/8b_chat_model_release/iter_0001251/mp_rank_00/model_optim_rng.pt
    --ada_lib_path /path/to/adept-inference

對於聊天模型

wget https://axtkn4xl5cip.objectstorage.us-phoenix-1.oci.customer-oci.com/n/axtkn4xl5cip/b/adept-public-data/o/8b_chat_model_release.tar
tar -xvf 8b_base_model_release.tar

此後，模型可以透過以下方式載入：

from transformers import PersimmonForCausalLM, PersimmonTokenizer

model = PersimmonForCausalLM.from_pretrained("/output/path")
tokenizer = PersimmonTokenizer.from_pretrained("/output/path")

Persimmon 使用基於 sentencepiece 的分詞器，帶有 Unigram 模型。它支援位元組回退，這僅在 tokenizers==0.14.0 中適用於快速分詞器。使用 LlamaTokenizer 是因為它是一個圍繞 sentencepiece 的標準包裝器。聊天模板將在後續的 PR 中使用模板函式進行更新！
作者建議在聊天模式下使用以下提示格式：f"human: {prompt}\n\nadept:"

PersimmonConfig

class transformers.PersimmonConfig

< 來源 >

( vocab_size = 262144 hidden_size = 4096 intermediate_size = 16384 num_hidden_layers = 36 num_attention_heads = 64 hidden_act = 'relu2' max_position_embeddings = 16384 initializer_range = 0.02 layer_norm_eps = 1e-05 use_cache = True tie_word_embeddings = False rope_theta = 25000.0 rope_scaling = None qk_layernorm = True hidden_dropout = 0.0 attention_dropout = 0.0 partial_rotary_factor = 0.5 pad_token_id = None bos_token_id = 1 eos_token_id = 2 **kwargs )

引數

vocab_size (int, 可選, 預設為 262144) — Persimmon 模型的詞彙表大小。定義了呼叫 PersimmonModel 時可以透過 inputs_ids 表示的不同 token 的數量。
hidden_size (int, 可選, 預設為 4096) — 隱藏表示的維度。
intermediate_size (int, 可選, 預設為 16384) — MLP 表示的維度。
num_hidden_layers (int, 可選, 預設為 36) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 64) — Transformer 編碼器中每個注意力層的注意力頭數量。
hidden_act (str 或 function, 可選, 預設為 "relu2") — 解碼器中的非線性啟用函式（函式或字串）。
max_position_embeddings (int, 可選, 預設為 16384) — 此模型可能使用的最大序列長度。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
layer_norm_eps (float, 可選, 預設為 1e-5) — RMS 歸一化層使用的 epsilon。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回最後的鍵/值注意力（並非所有模型都使用）。僅在 config.is_decoder=True 時相關。
tie_word_embeddings(bool, 可選, 預設為 False) — 是否繫結詞嵌入。
rope_theta (float, 可選, 預設為 25000.0) — RoPE 嵌入的基礎週期。
rope_scaling (Dict, 可選) — 包含 RoPE 嵌入縮放配置的字典。注意：如果您應用新的 RoPE 型別並期望模型在更長的 max_position_embeddings 上工作，我們建議您相應地更新此值。預期內容：rope_type (str)：要使用的 RoPE 子變體。可以是 ['default', 'linear', 'dynamic', 'yarn', 'longrope', 'llama3'] 中的一個，其中 'default' 是原始 RoPE 實現。factor (float, 可選)：與除 'default' 之外的所有 RoPE 型別一起使用。應用於 RoPE 嵌入的縮放因子。在大多數縮放型別中，x 的 factor 將使模型能夠處理長度為 x * 原始最大預訓練長度的序列。original_max_position_embeddings (int, 可選)：與 'dynamic'、'longrope' 和 'llama3' 一起使用。預訓練期間使用的原始最大位置嵌入。attention_factor (float, 可選)：與 'yarn' 和 'longrope' 一起使用。應用於注意力計算的縮放因子。如果未指定，它將預設為實現建議的值，使用 factor 欄位推斷建議值。beta_fast (float, 可選)：僅與 'yarn' 一起使用。用於線上性斜坡函式中設定外推（僅）邊界的引數。如果未指定，它將預設為 32。beta_slow (float, 可選)：僅與 'yarn' 一起使用。用於線上性斜坡函式中設定插值（僅）邊界的引數。如果未指定，它將預設為 1。short_factor (list[float], 可選)：僅與 'longrope' 一起使用。應用於短上下文 (< original_max_position_embeddings) 的縮放因子。必須是長度與隱藏大小除以注意力頭數量再除以 2 相同的數字列表。long_factor (list[float], 可選)：僅與 'longrope' 一起使用。應用於長上下文 (< original_max_position_embeddings) 的縮放因子。必須是長度與隱藏大小除以注意力頭數量再除以 2 相同的數字列表。low_freq_factor (float, 可選)：僅與 'llama3' 一起使用。應用於 RoPE 低頻分量的縮放因子。high_freq_factor (float, 可選)：僅與 'llama3' 一起使用。應用於 RoPE 高頻分量的縮放因子。
qk_layernorm (bool, 可選, 預設為 True) — 在投影隱藏狀態後是否對查詢和鍵進行歸一化。
hidden_dropout (float, 可選, 預設為 0.0) — 在將 MLP 應用於隱藏狀態後的 dropout 比率。
attention_dropout (float, 可選, 預設為 0.0) — 計算注意力分數後的 dropout 比率。
partial_rotary_factor (float, 可選, 預設為 0.5) — 將進行旋轉嵌入的查詢和鍵的百分比。
示例 —

這是一個配置類，用於儲存 PersimmonModel 的配置。它用於根據指定的引數例項化一個 Persimmon 模型，定義模型架構。使用預設值例項化配置將生成與 adept/persimmon-8b-base 類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

>>> from transformers import PersimmonModel, PersimmonConfig

>>> # Initializing a Persimmon persimmon-7b style configuration
>>> configuration = PersimmonConfig()

PersimmonModel

class transformers.PersimmonModel

< source >

( config: PersimmonConfig )

引數

config (PersimmonConfig) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請查閱 from_pretrained() 方法以載入模型權重。

裸的 Persimmon 模型，輸出原始隱藏狀態，頂部沒有任何特定頭部。

此模型繼承自 PreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解與一般用法和行為相關的所有事項。

前向傳播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **kwargs: typing_extensions.Unpack[transformers.modeling_flash_attention_utils.FlashAttentionKwargs] ) → transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 避免對填充 token 索引執行注意力的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示**未被掩碼**的 token，
- 0 表示**被掩碼**的 token。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (list[torch.FloatTensor], 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常包括模型在解碼前期返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv cache 指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入形狀為 (batch_size, 1) 的最後 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的 token），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果你想對如何將 input_ids 索引轉換為相關向量擁有比模型內部嵌入查詢矩陣更多的控制權，這將很有用。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
cache_position (形狀為 (sequence_length) 的 torch.LongTensor, 可選) — 描述輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整序列長度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithPast 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (PersimmonConfig) 和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
past_key_values (Cache, 可選, 當 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊中的鍵和值，如果 config.is_encoder_decoder=True，則可選地包含交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速序列解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層的輸出，如果模型有嵌入層，再加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

PersimmonModel 的前向傳播方法，覆蓋了 __call__ 特殊方法。

雖然前向傳播的方案需要在函式內部定義，但之後應該呼叫 Module 例項而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則默默地忽略它們。

PersimmonForCausalLM

class transformers.PersimmonForCausalLM

< source >

( config )

前向傳播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None logits_to_keep: typing.Union[int, torch.Tensor] = 0 **kwargs ) → transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 避免對填充 token 索引執行注意力的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示**未被掩碼**的 token，
- 0 表示**被掩碼**的 token。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (list[torch.FloatTensor], 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常包括模型在解碼前期返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入形狀為 (batch_size, 1) 的最後 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的 token），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果你想對如何將 input_ids 索引轉換為相關向量擁有比模型內部嵌入查詢矩陣更多的控制權，這將很有用。
labels (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 用於計算掩碼語言模型損失的標籤。索引應在 [0, ..., config.vocab_size] 或 -100 之間（參見 input_ids 文件字串）。索引設定為 -100 的 token 將被忽略（掩碼），損失僅針對標籤在 [0, ..., config.vocab_size] 範圍內的 token 計算。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
cache_position (形狀為 (sequence_length) 的 torch.LongTensor, 可選) — 描述輸入序列 token 在序列中位置的索引。與 position_ids 不同，此張量不受填充影響。它用於在正確位置更新快取並推斷完整序列長度。
logits_to_keep (Union[int, torch.Tensor], 預設為 0) — 如果為 int，則計算最後 logits_to_keep 個 token 的 logits。如果為 0，則計算所有 input_ids 的 logits（特殊情況）。生成時只需要最後一個 token 的 logits，只計算該 token 可以節省記憶體，這對於長序列或大詞彙表大小來說非常重要。如果為 torch.Tensor，則必須是與序列長度維度中要保留的索引對應的 1D 張量。這在使用打包張量格式（批次和序列長度的單一維度）時很有用。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.CausalLMOutputWithPast 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (PersimmonConfig) 和輸入的不同元素。

loss (torch.FloatTensor 形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失（用於下一個 token 預測）。
logits (形狀為 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 語言建模頭部的預測分數（SoftMax 之前的每個詞彙標記的分數）。
past_key_values (Cache, 可選, 當 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層的輸出，如果模型有嵌入層，再加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

PersimmonForCausalLM 的前向傳播方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, PersimmonForCausalLM

>>> model = PersimmonForCausalLM.from_pretrained("adept/persimmon-8b-base")
>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")

>>> prompt = "human: Hey, what should I eat for dinner?"
>>> inputs = tokenizer(prompt, return_tensors="pt")

>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
'human: Hey, what should I eat for dinner?\n\ncat: 🐱\n\nhuman: 😐\n\n'

PersimmonForSequenceClassification

class transformers.PersimmonForSequenceClassification

< source >

( config )

引數

config (PersimmonForSequenceClassification) — 模型配置類，包含模型的所有引數。使用配置檔案初始化不會載入與模型相關的權重，只加載配置。請查閱 from_pretrained() 方法以載入模型權重。

帶有序列分類頭（線性層）的 Persimmon 轉換器。

PersimmonForSequenceClassification 與其他因果模型（如 GPT-2）一樣，使用最後一個 token 進行分類。

由於它對最後一個 token 進行分類，因此需要知道最後一個 token 的位置。如果在配置中定義了 pad_token_id，它會在每一行中找到不是填充 token 的最後一個 token。如果沒有定義 pad_token_id，它只是簡單地取批次中每一行的最後一個值。由於當傳遞 inputs_embeds 而不是 input_ids 時它無法猜測填充 token，因此它執行相同的操作（取批次中每一行的最後一個值）。

此模型繼承自 PreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解與一般用法和行為相關的所有事項。

前向傳播

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

引數

input_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (形狀為 (batch_size, sequence_length) 的 torch.Tensor, 可選) — 避免對填充 token 索引執行注意力的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示**未被掩碼**的 token，
- 0 表示**被掩碼**的 token。
什麼是注意力掩碼？
position_ids (形狀為 (batch_size, sequence_length) 的 torch.LongTensor, 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速序列解碼。這通常包括模型在解碼前期返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入形狀為 (batch_size, 1) 的最後 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的 token），而不是形狀為 (batch_size, sequence_length) 的所有 input_ids。
inputs_embeds (形狀為 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可選) — 可選地，你可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果你想對如何將 input_ids 索引轉換為相關向量擁有比模型內部嵌入查詢矩陣更多的控制權，這將很有用。
labels (形狀為 (batch_size,) 的 torch.LongTensor, 可選) — 用於計算序列分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 之間。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（參見 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳細資訊請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳細資訊請參閱返回張量下的 hidden_states。

transformers.modeling_outputs.SequenceClassifierOutputWithPast 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.SequenceClassifierOutputWithPast 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或 config.return_dict=False 時），其中包含根據配置（PersimmonConfig）和輸入而變化的各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
past_key_values (Cache, 可選, 當 use_cache=True 或 config.use_cache=True 時返回) — 這是一個 Cache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預計算的隱藏狀態（自注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
hidden_states (tuple(torch.FloatTensor), 可選, 當 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層的輸出，如果模型有嵌入層，再加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

PersimmonForSequenceClassification 的 forward 方法，覆蓋了 __call__ 特殊方法。

單標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, PersimmonForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")
>>> model = PersimmonForSequenceClassification.from_pretrained("adept/persimmon-8b-base")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = PersimmonForSequenceClassification.from_pretrained("adept/persimmon-8b-base", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多標籤分類示例

>>> import torch
>>> from transformers import AutoTokenizer, PersimmonForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")
>>> model = PersimmonForSequenceClassification.from_pretrained("adept/persimmon-8b-base", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = PersimmonForSequenceClassification.from_pretrained(
...     "adept/persimmon-8b-base", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

PersimmonForTokenClassification

class transformers.PersimmonForTokenClassification

< 來源 >

( config )

引數

config (PersimmonForTokenClassification) — 模型的配置類，包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重，只加載配置。請查閱 from_pretrained() 方法來載入模型權重。

Persimmon Transformer 模型，頂部帶有 Token 分類頭（隱藏狀態輸出頂部的一個線性層），例如用於命名實體識別 (NER) 任務。

此模型繼承自 PreTrainedModel。請查閱超類文件，瞭解庫為其所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解與一般用法和行為相關的所有事項。

前向傳播

< 來源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None position_ids: typing.Optional[torch.LongTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

引數

input_ids (torch.LongTensor 形狀為 (batch_size, sequence_length), 可選) — 詞彙表中輸入序列 token 的索引。預設情況下會忽略填充。

可以使用 AutoTokenizer 獲取索引。有關詳細資訊，請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什麼是輸入 ID？
attention_mask (torch.Tensor 形狀為 (batch_size, sequence_length), 可選) — 避免對填充 token 索引執行注意力操作的掩碼。掩碼值選擇範圍為 [0, 1]：
- 1 表示未被掩碼的 token，
- 0 表示被掩碼的 token。
什麼是注意力掩碼？
position_ids (torch.LongTensor 形狀為 (batch_size, sequence_length), 可選) — 每個輸入序列 token 在位置嵌入中的位置索引。選擇範圍為 [0, config.n_positions - 1]。

什麼是位置 ID？
past_key_values (~cache_utils.Cache, 可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量。這也被稱為舊版快取格式。
模型將輸出與作為輸入饋入的快取格式相同的快取格式。如果沒有傳入 past_key_values，將返回舊版快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的）形狀為 (batch_size, 1)，而不是所有 input_ids 形狀為 (batch_size, sequence_length)。
inputs_embeds (torch.FloatTensor 形狀為 (batch_size, sequence_length, hidden_size), 可選) — 可選地，您可以選擇直接傳遞嵌入表示，而不是傳遞 input_ids。如果您希望對 input_ids 索引如何轉換為相關向量有比模型內部嵌入查詢矩陣更多的控制，這將很有用。
labels (torch.LongTensor 形狀為 (batch_size,), 可選) — 用於計算序列分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
use_cache (bool, 可選) — 如果設定為 True，則返回 past_key_values 鍵值狀態，可用於加速解碼（請參閱 past_key_values）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。更多詳細資訊請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳細資訊請參閱返回張量下的 hidden_states。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.TokenClassifierOutput 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或 config.return_dict=False 時），其中包含根據配置（PersimmonConfig）和輸入而變化的各種元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失。
logits (形狀為 (batch_size, sequence_length, config.num_labels) 的 torch.FloatTensor) — 分類分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（一個用於嵌入層的輸出，如果模型有嵌入層，再加上每個層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

PersimmonForTokenClassification 的 forward 方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, PersimmonForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("adept/persimmon-8b-base")
>>> model = PersimmonForTokenClassification.from_pretrained("adept/persimmon-8b-base")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
...

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

< > 在 GitHub 上更新

←PEGASUS-X Phi→