Autoformer

概述

Autoformer 模型由 Haixu Wu、Jiehui Xu、Jianmin Wang、Mingsheng Long 在 Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting 中提出。

該模型將 Transformer 增強為一種深度分解架構，可以在預測過程中逐步分解趨勢和季節性成分。

論文摘要如下：

延長預測時間是實際應用的關鍵需求，例如極端天氣預警和長期能源消耗規劃。本文研究了時間序列的長期預測問題。現有的基於 Transformer 的模型採用各種自注意力機制來發現長程依賴關係。然而，長期未來複雜的時序模式阻礙了模型發現可靠的依賴關係。此外，Transformer 為了提高長序列的效率，必須採用點式自注意力的稀疏版本，導致資訊利用瓶頸。超越 Transformer，我們將 Autoformer 設計為一種新穎的具有自相關機制的分解架構。我們打破了序列分解的預處理慣例，並將其創新為深度模型的基本內部模組。這種設計使 Autoformer 具備了處理複雜時間序列的漸進分解能力。此外，受隨機過程理論的啟發，我們設計了基於序列週期性的自相關機制，該機制在子序列級別進行依賴關係發現和表示聚合。自相關在效率和準確性方面均優於自注意力。在長期預測中，Autoformer 取得了最先進的準確性，在六個基準上相對提高了 38%，涵蓋了五種實際應用：能源、交通、經濟、天氣和疾病。

該模型由 elisim 和 kashif 貢獻。原始程式碼可以在這裡找到。

資源

Hugging Face 官方和社群（以🌎表示）資源列表，幫助您快速入門。如果您有興趣提交資源以供此處收錄，請隨時開啟 Pull Request，我們將對其進行審查！資源應理想地展示一些新內容，而不是重複現有資源。

檢視 HuggingFace 部落格中的 Autoformer 部落格文章：是的，Transformer 對時間序列預測是有效的（+ Autoformer）

AutoformerConfig

class transformers.AutoformerConfig

< 來源 >

( prediction_length: typing.Optional[int] = None context_length: typing.Optional[int] = None distribution_output: str = 'student_t' loss: str = 'nll' input_size: int = 1 lags_sequence: list = [1, 2, 3, 4, 5, 6, 7] scaling: bool = True num_time_features: int = 0 num_dynamic_real_features: int = 0 num_static_categorical_features: int = 0 num_static_real_features: int = 0 cardinality: typing.Optional[list[int]] = None embedding_dimension: typing.Optional[list[int]] = None d_model: int = 64 encoder_attention_heads: int = 2 decoder_attention_heads: int = 2 encoder_layers: int = 2 decoder_layers: int = 2 encoder_ffn_dim: int = 32 decoder_ffn_dim: int = 32 activation_function: str = 'gelu' dropout: float = 0.1 encoder_layerdrop: float = 0.1 decoder_layerdrop: float = 0.1 attention_dropout: float = 0.1 activation_dropout: float = 0.1 num_parallel_samples: int = 100 init_std: float = 0.02 use_cache: bool = True is_encoder_decoder = True label_length: int = 10 moving_average: int = 25 autocorrelation_factor: int = 3 **kwargs )

引數

prediction_length (int) — 解碼器的預測長度。換句話說，模型的預測範圍。
context_length (int, 可選, 預設為 prediction_length) — 編碼器的上下文長度。如果未設定，上下文長度將與 prediction_length 相同。
distribution_output (string, 可選, 預設為 "student_t") — 模型的分佈發射頭。可以是“student_t”、“normal”或“negative_binomial”。
loss (string, 可選, 預設為 "nll") — 與 distribution_output 頭對應的模型損失函式。對於引數分佈，它是負對數似然（nll）——目前唯一支援的。
input_size (int, 可選, 預設為 1) — 目標變數的大小，預設情況下對於單變數目標為 1。對於多變數目標將大於 1。
lags_sequence (list[int], 可選, 預設為 [1, 2, 3, 4, 5, 6, 7]) — 作為協變數的輸入時間序列的滯後，通常由頻率決定。預設為 [1, 2, 3, 4, 5, 6, 7]。
scaling (bool, 可選，預設為 True) — 是否縮放輸入目標。
num_time_features (int, 可選, 預設為 0) — 輸入時間序列中的時間特徵數量。
num_dynamic_real_features (int, 可選, 預設為 0) — 動態實值特徵的數量。
num_static_categorical_features (int, 可選, 預設為 0) — 靜態分類特徵的數量。
num_static_real_features (int, 可選, 預設為 0) — 靜態實值特徵的數量。
cardinality (list[int], 可選) — 每個靜態分類特徵的基數（不同值的數量）。應為整數列表，長度與 num_static_categorical_features 相同。如果 num_static_categorical_features 大於 0，則不能為 None。
embedding_dimension (list[int], 可選) — 每個靜態分類特徵的嵌入維度。應為整數列表，長度與 num_static_categorical_features 相同。如果 num_static_categorical_features 大於 0，則不能為 None。
d_model (int, 可選, 預設為 64) — Transformer 層的維度。
encoder_layers (int, 可選, 預設為 2) — 編碼器層數。
decoder_layers (int, 可選, 預設為 2) — 解碼器層數。
encoder_attention_heads (int, 可選, 預設為 2) — Transformer 編碼器中每個注意力層的注意力頭數量。
decoder_attention_heads (int, 可選, 預設為 2) — Transformer 解碼器中每個注意力層的注意力頭數量。
encoder_ffn_dim (int, 可選, 預設為 32) — 編碼器中“中間”（通常稱為前饋）層的維度。
decoder_ffn_dim (int, 可選, 預設為 32) — 解碼器中“中間”（通常稱為前饋）層的維度。
activation_function (str 或 function, 可選, 預設為 "gelu") — 編碼器和解碼器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu" 和 "relu"。
dropout (float, 可選, 預設為 0.1) — 編碼器和解碼器中所有全連線層的 dropout 機率。
encoder_layerdrop (float, 可選, 預設為 0.1) — 每個編碼器層的注意力和全連線層的 dropout 機率。
decoder_layerdrop (float, 可選, 預設為 0.1) — 每個解碼器層的注意力和全連線層的 dropout 機率。
attention_dropout (float, 可選, 預設為 0.1) — 注意力機率的 dropout 機率。
activation_dropout (float, 可選, 預設為 0.1) — 在兩個前饋網路層之間使用的 dropout 機率。
num_parallel_samples (int, 可選, 預設為 100) — 推理的每個時間步並行生成的樣本數量。
init_std (float, 可選, 預設為 0.02) — 截斷正態權重初始化分佈的標準差。
use_cache (bool, 可選, 預設為 True) — 是否使用過去的鍵/值注意力（如果適用於模型）以加快解碼速度。
label_length (int, 可選, 預設為 10) — Autoformer 解碼器的起始令牌長度，用於直接多步預測（即非自迴歸生成）。
moving_average (int, 可選, 預設為 25) — 移動平均的視窗大小。實際上，它是分解層中 AvgPool1d 的核大小。
autocorrelation_factor (int, 可選, 預設為 3) — “注意力”（即自相關機制）因子，用於查詢前 k 個自相關延遲。論文建議將其設定為 1 到 5 之間的數字。

這是用於儲存 AutoformerModel 配置的配置類。它用於根據指定的引數例項化 Autoformer 模型，定義模型架構。使用預設值例項化配置將生成與 Autoformer huggingface/autoformer-tourism-monthly 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

>>> from transformers import AutoformerConfig, AutoformerModel

>>> # Initializing a default Autoformer configuration
>>> configuration = AutoformerConfig()

>>> # Randomly initializing a model (with random weights) from the configuration
>>> model = AutoformerModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

AutoformerModel

class transformers.AutoformerModel

< 來源 >

( config: AutoformerConfig )

引數

config (AutoformerConfig) — 模型配置類，包含模型的所有引數。使用配置檔案進行初始化不會載入與模型相關的權重，只加載配置。請查閱 from_pretrained() 方法以載入模型權重。

裸 Autoformer 模型，輸出原始隱藏狀態，頂部沒有任何特定頭。

此模型繼承自 PreTrainedModel。查閱超類文件，瞭解庫為其所有模型實現的一般方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

forward

< 來源 >

( past_values: Tensor past_time_features: Tensor past_observed_mask: Tensor static_categorical_features: typing.Optional[torch.Tensor] = None static_real_features: typing.Optional[torch.Tensor] = None future_values: typing.Optional[torch.Tensor] = None future_time_features: typing.Optional[torch.Tensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[list[torch.FloatTensor]] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None output_hidden_states: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None use_cache: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.autoformer.modeling_autoformer.AutoformerModelOutput 或 tuple(torch.FloatTensor)

引數

past_values (形狀為 (batch_size, sequence_length) 的 torch.FloatTensor) — 時間序列的過去值，作為預測未來的上下文。這些值可能包含滯後，即為作為“額外上下文”而新增的來自過去的額外值。past_values 是 Transformer 編碼器作為輸入（帶可選額外特徵，如 static_categorical_features、static_real_features、past_time_features）獲取的值。

這裡的序列長度等於 context_length + max(config.lags_sequence)。

缺失值需要替換為零。
past_time_features (形狀為 (batch_size, sequence_length, num_features) 的 torch.FloatTensor, 可選) — 可選的時間特徵，模型將在內部將其新增到 past_values。這些可以是“月份”、“日”等編碼為向量（例如傅立葉特徵）的特徵。這些也可以是所謂的“年齡”特徵，它們基本上幫助模型知道時間序列處於“生命中的哪個階段”。年齡特徵對於遙遠的過去時間步具有較小的值，並且隨著我們接近當前時間步而單調增加。

這些特徵充當輸入的“位置編碼”。因此，與 BERT 等模型不同，BERT 等模型的位置編碼是在模型內部從頭開始學習的引數，而時間序列 Transformer 需要提供額外的時間特徵。

Autoformer 只學習 static_categorical_features 的額外嵌入。
past_observed_mask (形狀為 (batch_size, sequence_length) 的 torch.BoolTensor, 可選) — 布林掩碼，指示哪些 past_values 已觀測到，哪些缺失。掩碼值選擇範圍為 [0, 1]：
- 1 表示已觀測到的值，
- 0 表示缺失的值（即已被零替換的 NaN）。
static_categorical_features (形狀為 (batch_size, number of static categorical features) 的 torch.LongTensor, 可選) — 可選的靜態分類特徵，模型將學習其嵌入並將其新增到時間序列的值中。

靜態分類特徵是指在所有時間步長（隨時間靜態）都具有相同值的特徵。

靜態分類特徵的一個典型例子是時間序列 ID。
static_real_features (形狀為 (batch_size, number of static real features) 的 torch.FloatTensor, 可選) — 可選的靜態實值特徵，模型將新增到時間序列的值中。

靜態實值特徵是指在所有時間步長（隨時間靜態）都具有相同值的特徵。

靜態實值特徵的一個典型例子是促銷資訊。
future_values (形狀為 (batch_size, prediction_length) 的 torch.FloatTensor) — 時間序列的未來值，用作模型的標籤。future_values 是 Transformer 需要學習輸出的值，給定 past_values。

有關詳細資訊，請參閱演示筆記本和程式碼片段。

缺失值需要替換為零。
future_time_features (torch.FloatTensor，形狀為 (batch_size, prediction_length, num_features)，可選) — 可選的時間特徵，模型將在內部將其新增到 future_values 中。這些特徵可以是“年份月份”、“月份日期”等，編碼為向量（例如作為傅立葉特徵）。這些特徵也可以是所謂的“年齡”特徵，它們基本幫助模型瞭解時間序列“處於生命週期的哪個點”。年齡特徵對於遙遠的過去時間步具有小值，並且隨著我們接近當前時間步而單調增加。

這些特徵作為輸入的“位置編碼”。因此，與BERT等模型不同，BERT模型的位置編碼是從頭開始在內部作為模型引數學習的，時間序列Transformer需要提供額外特徵。

Autoformer僅學習 static_categorical_features 的額外嵌入。
decoder_attention_mask (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 用於避免對特定標記索引執行注意力的掩碼。預設情況下，將使用因果掩碼，以確保模型只能檢視先前的輸入才能預測未來。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
decoder_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
cross_attn_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
encoder_outputs (tuple(tuple(torch.FloatTensor)，可選) — 元組包含 last_hidden_state、hidden_states (可選) 和 attentions (可選)。last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size) (可選)，是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力。
past_key_values (list[torch.FloatTensor]，可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，則將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的）的形狀 (batch_size, 1)，而不是所有 input_ids 的形狀 (batch_size, sequence_length)。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 hidden_states。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 attentions。
use_cache (bool，可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，並可用於加速解碼（參見 past_key_values）。
return_dict (bool，可選) — 是否返回 ModelOutput 而不是普通元組。

transformers.models.autoformer.modeling_autoformer.AutoformerModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.autoformer.modeling_autoformer.AutoformerModelOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），包含各種元素，具體取決於配置（AutoformerConfig）和輸入。

last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)) — 模型解碼器最後一層輸出的隱藏狀態序列。

如果使用了 past_key_values，則只輸出形狀為 (batch_size, 1, hidden_size) 的序列的最後一個隱藏狀態。
trend (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)) — 每個時間序列的趨勢張量。
past_key_values (tuple(tuple(torch.FloatTensor))，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）和 2 個額外的形狀為 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的張量。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple[torch.FloatTensor]，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則一個用於嵌入輸出，加上每個層的一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple[torch.FloatTensor]，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple[torch.FloatTensor]，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選，預設為 None) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple[torch.FloatTensor]，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則一個用於嵌入輸出，加上每個層的一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple[torch.FloatTensor]，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
loc (torch.FloatTensor，形狀為 (batch_size,) 或 (batch_size, input_size)，可選) — 每個時間序列上下文視窗的平移值，用於使模型輸入具有相同的大小，然後用於平移回原始大小。
scale (torch.FloatTensor，形狀為 (batch_size,) 或 (batch_size, input_size)，可選) — 每個時間序列上下文視窗的縮放值，用於使模型輸入具有相同的大小，然後用於縮放回原始大小。
static_features: (torch.FloatTensor，形狀為 (batch_size, feature size)，可選) — 批次中每個時間序列的靜態特徵，在推理時複製到協變數中。
static_features (torch.FloatTensor，形狀為 (batch_size, feature size)，可選，預設為 None) — 批次中每個時間序列的靜態特徵，在推理時複製到協變數中。

The AutoformerModel forward 方法，覆蓋了 __call__ 特殊方法。

儘管前向傳播的實現需要在該函式中定義，但之後應該呼叫 Module 例項而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則默默地忽略它們。

示例

>>> from huggingface_hub import hf_hub_download
>>> import torch
>>> from transformers import AutoformerModel

>>> file = hf_hub_download(
...     repo_id="hf-internal-testing/tourism-monthly-batch", filename="train-batch.pt", repo_type="dataset"
... )
>>> batch = torch.load(file)

>>> model = AutoformerModel.from_pretrained("huggingface/autoformer-tourism-monthly")

>>> # during training, one provides both past and future values
>>> # as well as possible additional features
>>> outputs = model(
...     past_values=batch["past_values"],
...     past_time_features=batch["past_time_features"],
...     past_observed_mask=batch["past_observed_mask"],
...     static_categorical_features=batch["static_categorical_features"],
...     future_values=batch["future_values"],
...     future_time_features=batch["future_time_features"],
... )

>>> last_hidden_state = outputs.last_hidden_state

AutoformerForPrediction

class transformers.AutoformerForPrediction

< source >

( config: AutoformerConfig )

引數

config (AutoformerConfig) — 模型的配置類，包含模型的所有引數。使用配置檔案初始化不載入與模型關聯的權重，僅載入配置。請查閱 from_pretrained() 方法以載入模型權重。

Autoformer 模型，頂部帶有一個分佈頭，用於時間序列預測。

此模型繼承自 PreTrainedModel。查閱超類文件，瞭解庫為其所有模型實現的一般方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件以瞭解所有與一般用法和行為相關的事項。

forward

< source >

( past_values: Tensor past_time_features: Tensor past_observed_mask: Tensor static_categorical_features: typing.Optional[torch.Tensor] = None static_real_features: typing.Optional[torch.Tensor] = None future_values: typing.Optional[torch.Tensor] = None future_time_features: typing.Optional[torch.Tensor] = None future_observed_mask: typing.Optional[torch.Tensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[list[torch.FloatTensor]] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None output_hidden_states: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None use_cache: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.Seq2SeqTSPredictionOutput or tuple(torch.FloatTensor)

引數

past_values (torch.FloatTensor，形狀為 (batch_size, sequence_length)) — 時間序列的過去值，作為預測未來的上下文。這些值可能包含滯後，即從過去新增的額外值，以作為“額外上下文”。past_values 是 Transformer 編碼器作為輸入獲取的內容（可選地包含額外特徵，例如 static_categorical_features、static_real_features、past_time_features）。

這裡的序列長度等於 context_length + max(config.lags_sequence)。

缺失值需要用零替換。
past_time_features (torch.FloatTensor，形狀為 (batch_size, sequence_length, num_features)，可選) — 可選的時間特徵，模型將在內部將其新增到 past_values 中。這些特徵可以是“年份月份”、“月份日期”等，編碼為向量（例如作為傅立葉特徵）。這些特徵也可以是所謂的“年齡”特徵，它們基本幫助模型瞭解時間序列“處於生命週期的哪個點”。年齡特徵對於遙遠的過去時間步具有小值，並且隨著我們接近當前時間步而單調增加。

這些特徵作為輸入的“位置編碼”。因此，與BERT等模型不同，BERT模型的位置編碼是從頭開始在內部作為模型引數學習的，時間序列Transformer需要提供額外的時間特徵。

Autoformer僅學習 static_categorical_features 的額外嵌入。
past_observed_mask (torch.BoolTensor，形狀為 (batch_size, sequence_length)，可選) — 布林掩碼，指示哪些 past_values 被觀察到，哪些缺失。掩碼值在 [0, 1] 中選擇：
- 1 表示值被觀察到，
- 0 表示值缺失（即被零替換的 NaN）。
static_categorical_features (torch.LongTensor，形狀為 (batch_size, 靜態分類特徵的數量)，可選) — 可選的靜態分類特徵，模型將為其學習嵌入，並將其新增到時間序列的值中。

靜態分類特徵是所有時間步具有相同值的特徵（隨時間保持靜態）。

靜態分類特徵的典型示例是時間序列 ID。
static_real_features (torch.FloatTensor，形狀為 (batch_size, 靜態實值特徵的數量)，可選) — 可選的靜態實值特徵，模型將將其新增到時間序列的值中。

靜態實值特徵是所有時間步具有相同值的特徵（隨時間保持靜態）。

靜態實值特徵的典型示例是促銷資訊。
future_values (torch.FloatTensor，形狀為 (batch_size, prediction_length)) — 時間序列的未來值，作為模型的標籤。future_values 是 Transformer 需要學習輸出的內容，給定 past_values。

有關詳細資訊，請參閱演示筆記本和程式碼片段。

缺失值需要用零替換。
future_time_features (torch.FloatTensor，形狀為 (batch_size, prediction_length, num_features)，可選) — 可選的時間特徵，模型將在內部將其新增到 future_values 中。這些特徵可以是“年份月份”、“月份日期”等，編碼為向量（例如作為傅立葉特徵）。這些特徵也可以是所謂的“年齡”特徵，它們基本幫助模型瞭解時間序列“處於生命週期的哪個點”。年齡特徵對於遙遠的過去時間步具有小值，並且隨著我們接近當前時間步而單調增加。

這些特徵作為輸入的“位置編碼”。因此，與BERT等模型不同，BERT模型的位置編碼是從頭開始在內部作為模型引數學習的，時間序列Transformer需要提供額外特徵。

Autoformer僅學習 static_categorical_features 的額外嵌入。
future_observed_mask (torch.BoolTensor，形狀為 (batch_size, sequence_length) 或 (batch_size, sequence_length, input_size)，可選) — 布林掩碼，指示哪些 future_values 被觀察到，哪些缺失。掩碼值在 [0, 1] 中選擇：
- 1 表示值被觀察到，
- 0 表示值缺失（即被零替換的 NaN）。
此掩碼用於在最終損失計算中過濾掉缺失值。
decoder_attention_mask (torch.LongTensor，形狀為 (batch_size, target_sequence_length)，可選) — 用於避免對特定標記索引執行注意力的掩碼。預設情況下，將使用因果掩碼，以確保模型只能檢視先前的輸入才能預測未來。
head_mask (torch.Tensor，形狀為 (num_heads,) 或 (num_layers, num_heads)，可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
decoder_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使解碼器中注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
cross_attn_head_mask (torch.Tensor，形狀為 (decoder_layers, decoder_attention_heads)，可選) — 用於使交叉注意力模組的選定頭部無效的掩碼。掩碼值在 [0, 1] 中選擇：
- 1 表示頭部未被遮蔽，
- 0 表示頭部被遮蔽。
encoder_outputs (tuple(tuple(torch.FloatTensor)，可選) — 元組包含 last_hidden_state、hidden_states (可選) 和 attentions (可選)。last_hidden_state 的形狀為 (batch_size, sequence_length, hidden_size) (可選)，是編碼器最後一層輸出的隱藏狀態序列。用於解碼器的交叉注意力。
past_key_values (list[torch.FloatTensor]，可選) — 預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於加速順序解碼。這通常包括模型在解碼上一階段返回的 past_key_values，當 use_cache=True 或 config.use_cache=True 時。

允許兩種格式：
- 一個 Cache 例項，請參閱我們的 kv 快取指南；
- 長度為 config.n_layers 的 tuple(torch.FloatTensor) 元組，每個元組包含 2 個形狀為 (batch_size, num_heads, sequence_length, embed_size_per_head) 的張量）。這也被稱為傳統快取格式。
模型將輸出與輸入相同的快取格式。如果未傳遞 past_key_values，則將返回傳統快取格式。

如果使用 past_key_values，使用者可以選擇僅輸入最後一個 input_ids（那些沒有將其過去的鍵值狀態提供給此模型的）的形狀 (batch_size, 1)，而不是所有 input_ids 的形狀 (batch_size, sequence_length)。
output_hidden_states (bool，可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參閱返回張量下的 hidden_states。
output_attentions (bool，可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參閱返回張量下的 attentions。
use_cache (bool，可選) — 如果設定為 True，將返回 past_key_values 鍵值狀態，並可用於加速解碼（參見 past_key_values）。
return_dict (bool，可選) — 是否返回 ModelOutput 而不是普通元組。

transformers.modeling_outputs.Seq2SeqTSPredictionOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.Seq2SeqTSPredictionOutput 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），包含各種元素，具體取決於配置（AutoformerConfig）和輸入。

loss (torch.FloatTensor，形狀為 (1,)，可選，當提供 future_values 時返回) — 分佈損失。
params (torch.FloatTensor，形狀為 (batch_size, num_samples, num_params)) — 所選分佈的引數。
past_key_values (EncoderDecoderCache，可選，當傳遞 use_cache=True 或當 config.use_cache=True 時返回) — 這是一個 EncoderDecoderCache 例項。有關更多詳細資訊，請參閱我們的 kv 快取指南。

包含預先計算的隱藏狀態（自注意力塊和交叉注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
decoder_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則一個用於嵌入輸出，加上每個層的一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

解碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
decoder_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
cross_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

解碼器交叉注意力層的注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。
encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型編碼器最後一層輸出的隱藏狀態序列。
encoder_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則一個用於嵌入輸出，加上每個層的一個輸出），形狀為 (batch_size, sequence_length, hidden_size)。

編碼器在每一層輸出時的隱藏狀態以及初始嵌入輸出。
encoder_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或當 config.output_attentions=True 時返回) — torch.FloatTensor 元組（每個層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
loc (torch.FloatTensor，形狀為 (batch_size,) 或 (batch_size, input_size)，可選) — 每個時間序列上下文視窗的平移值，用於使模型輸入具有相同的大小，然後用於平移回原始大小。
scale (torch.FloatTensor，形狀為 (batch_size,) 或 (batch_size, input_size)，可選) — 每個時間序列上下文視窗的縮放值，用於使模型輸入具有相同的大小，然後用於縮放回原始大小。
static_features (torch.FloatTensor，形狀為 (batch_size, feature size)，可選) — 批次中每個時間序列的靜態特徵，在推理時複製到協變數。

The AutoformerForPrediction forward 方法，覆蓋了 __call__ 特殊方法。

示例

>>> from huggingface_hub import hf_hub_download
>>> import torch
>>> from transformers import AutoformerForPrediction

>>> file = hf_hub_download(
...     repo_id="hf-internal-testing/tourism-monthly-batch", filename="train-batch.pt", repo_type="dataset"
... )
>>> batch = torch.load(file)

>>> model = AutoformerForPrediction.from_pretrained("huggingface/autoformer-tourism-monthly")

>>> # during training, one provides both past and future values
>>> # as well as possible additional features
>>> outputs = model(
...     past_values=batch["past_values"],
...     past_time_features=batch["past_time_features"],
...     past_observed_mask=batch["past_observed_mask"],
...     static_categorical_features=batch["static_categorical_features"],
...     future_values=batch["future_values"],
...     future_time_features=batch["future_time_features"],
... )

>>> loss = outputs.loss
>>> loss.backward()

>>> # during inference, one only provides past values
>>> # as well as possible additional features
>>> # the model autoregressively generates future values
>>> outputs = model.generate(
...     past_values=batch["past_values"],
...     past_time_features=batch["past_time_features"],
...     past_observed_mask=batch["past_observed_mask"],
...     static_categorical_features=batch["static_categorical_features"],
...     future_time_features=batch["future_time_features"],
... )

>>> mean_prediction = outputs.sequences.mean(dim=1)

AutoformerForPrediction 也可以使用 static_real_features。為此，根據資料集中此類特徵的數量（對於 tourism_monthly 資料集，它

等於 1），在 AutoformerConfig 中設定 num_static_real_features，初始化模型並按如下方式呼叫

>>> from huggingface_hub import hf_hub_download
>>> import torch
>>> from transformers import AutoformerConfig, AutoformerForPrediction

>>> file = hf_hub_download(
...     repo_id="hf-internal-testing/tourism-monthly-batch", filename="train-batch.pt", repo_type="dataset"
... )
>>> batch = torch.load(file)

>>> # check number of static real features
>>> num_static_real_features = batch["static_real_features"].shape[-1]

>>> # load configuration of pretrained model and override num_static_real_features
>>> configuration = AutoformerConfig.from_pretrained(
...     "huggingface/autoformer-tourism-monthly",
...     num_static_real_features=num_static_real_features,
... )
>>> # we also need to update feature_size as it is not recalculated
>>> configuration.feature_size += num_static_real_features

>>> model = AutoformerForPrediction(configuration)

>>> outputs = model(
...     past_values=batch["past_values"],
...     past_time_features=batch["past_time_features"],
...     past_observed_mask=batch["past_observed_mask"],
...     static_categorical_features=batch["static_categorical_features"],
...     static_real_features=batch["static_real_features"],
...     future_values=batch["future_values"],
...     future_time_features=batch["future_time_features"],
... )

< > 在 GitHub 上更新