最佳化

本頁包含 timm 中學習率最佳化器的 API 參考文件。

最佳化器

工廠函式

timm.optim.create_optimizer_v2

( model_or_params: typing.Union[torch.nn.modules.module.Module, collections.abc.Iterable[torch.Tensor], collections.abc.Iterable[dict[str, typing.Any]], collections.abc.Iterable[tuple[str, torch.Tensor]]] opt: str = 'sgd' lr: typing.Optional[float] = None weight_decay: float = 0.0 momentum: float = 0.9 foreach: typing.Optional[bool] = None filter_bias_and_bn: bool = True layer_decay: typing.Optional[float] = None layer_decay_min_scale: float = 0.0 layer_decay_no_opt_scale: typing.Optional[float] = None param_group_fn: typing.Optional[typing.Callable[[torch.nn.modules.module.Module], typing.Union[collections.abc.Iterable[torch.Tensor], collections.abc.Iterable[dict[str, typing.Any]], collections.abc.Iterable[tuple[str, torch.Tensor]]]]] = None **kwargs: typing.Any )

引數

model_or_params — 一個 PyTorch 模型或一個可迭代的引數/引數組。如果提供了一個模型，將根據其他引數自動提取和分組引數。
opt — 要建立的最佳化器的名稱（例如，‘adam’、‘adamw’、‘sgd’）。使用 list_optimizers() 檢視可用選項。
lr — 學習率。如果為 None，將使用最佳化器的預設值。
weight_decay — 權重衰減因子。如果 model_or_params 是一個模型，將用於建立引數組。
momentum — 支援動量的最佳化器的動量因子。僅當所選最佳化器接受 momentum 引數時使用。
foreach — 啟用/停用 foreach (多張量) 實現（如果可用）。如果為 None，將使用最佳化器特定的預設值。
filter_bias_and_bn — 如果為 True，則偏置、歸一化層引數（所有一維引數）將不應用權重衰減。僅當 model_or_params 是一個模型且 weight_decay > 0 時使用。
layer_decay — 可選的逐層學習率衰減因子。如果提供，學習率將按 layer_decay^(max_depth - layer_depth) 縮放。僅當 model_or_params 是一個模型時使用。
param_group_fn — 用於建立自定義引數組的可選函式。如果提供，其他引數分組選項將被忽略。
**kwargs — 額外的最佳化器特定引數（例如，Adam 的 betas）。

透過 timm 登錄檔建立最佳化器例項。

建立並配置一個具有適當引數組和設定的最佳化器。支援為權重衰減和逐層學習率自動建立引數組，以及自定義引數分組。

示例

模型的基本用法

optimizer = create_optimizer_v2(model, ‘adamw’, lr=1e-3)

帶動態和權重衰減的 SGD

optimizer = create_optimizer_v2( … model, ‘sgd’, lr=0.1, momentum=0.9, weight_decay=1e-4 … )

帶逐層學習率衰減的 Adam

optimizer = create_optimizer_v2( … model, ‘adam’, lr=1e-3, layer_decay=0.7 … )

自定義引數組

def group_fn(model): … return [ … {‘params’: model.backbone.parameters(), ‘lr’: 1e-4}, … {‘params’: model.head.parameters(), ‘lr’: 1e-3} … ] optimizer = create_optimizer_v2( … model, ‘sgd’, param_group_fn=group_fn … )

注意：引數組處理優先順序

如果提供了 param_group_fn，將只使用它
如果提供了 layer_decay，將建立逐層分組
如果 weight_decay > 0 且 filter_bias_and_bn 為 True，將建立權重衰減分組
否則，所有引數將分在同一組

timm

最佳化

最佳化器

工廠函式

timm.optim.create_optimizer_v2

模型的基本用法

帶動態和權重衰減的 SGD

帶逐層學習率衰減的 Adam

自定義引數組

timm.optim.list_optimizers

timm.optim.get_optimizer_class

獲取帶 nesterov 動量預設值的 SGD

獲取原始最佳化器類

最佳化器類

class timm.optim.AdaBelief

步驟

class timm.optim.Adafactor

步驟

class timm.optim.AdafactorBigVision

class timm.optim.Adahessian

get_params

set_hessian

步驟

zero_hessian

class timm.optim.AdamP

class timm.optim.Adan

步驟

class timm.optim.Adopt

步驟

class timm.optim.Lamb

步驟

class timm.optim.LaProp

步驟

class timm.optim.Lars

步驟

class timm.optim.Lion

步驟

class timm.optim.Lookahead

class timm.optim.MADGRAD

步驟

class timm.optim.Mars

步驟

class timm.optim.NAdamW

步驟

class timm.optim.NvNovoGrad

步驟

class timm.optim.RMSpropTF

步驟

class timm.optim.SGDP

class timm.optim.SGDW

步驟