訓練器

Trainer 類為 PyTorch 提供了功能齊全的訓練 API，並支援多 GPU/TPU 上的分散式訓練，支援 NVIDIA GPU、AMD GPU 的混合精度，以及 PyTorch 的 torch.amp。 Trainer 與 TrainingArguments 類相輔相成，後者提供了多種選項來自定義模型訓練方式。這兩個類共同提供了一個完整的訓練 API。

Seq2SeqTrainer 和 Seq2SeqTrainingArguments 繼承自 Trainer 和 TrainingArguments 類，它們適用於訓練摘要或翻譯等序列到序列任務的模型。

Trainer 類針對 🤗 Transformers 模型進行了最佳化，當與其他模型一起使用時可能會出現令人驚訝的行為。當與您自己的模型一起使用時，請確保

您的模型始終返回元組或 ModelOutput 的子類
如果提供了 labels 引數，您的模型可以計算損失，並且該損失作為元組的第一個元素返回（如果您的模型返回元組）
您的模型可以接受多個標籤引數（在 TrainingArguments 中使用 label_names 向 Trainer 指示它們的名稱），但它們都不能命名為 "label"

Trainer

類 transformers.Trainer

< 來源 >

( model: typing.Union[transformers.modeling_utils.PreTrainedModel, torch.nn.modules.module.Module, NoneType] = None args: TrainingArguments = None data_collator: typing.Optional[transformers.data.data_collator.DataCollator] = None train_dataset: typing.Union[torch.utils.data.dataset.Dataset, torch.utils.data.dataset.IterableDataset, ForwardRef('datasets.Dataset'), NoneType] = None eval_dataset: typing.Union[torch.utils.data.dataset.Dataset, dict[str, torch.utils.data.dataset.Dataset], ForwardRef('datasets.Dataset'), NoneType] = None processing_class: typing.Union[transformers.tokenization_utils_base.PreTrainedTokenizerBase, transformers.image_processing_utils.BaseImageProcessor, transformers.feature_extraction_utils.FeatureExtractionMixin, transformers.processing_utils.ProcessorMixin, NoneType] = None model_init: typing.Optional[typing.Callable[[], transformers.modeling_utils.PreTrainedModel]] = None compute_loss_func: typing.Optional[typing.Callable] = None compute_metrics: typing.Optional[typing.Callable[[transformers.trainer_utils.EvalPrediction], dict]] = None callbacks: typing.Optional[list[transformers.trainer_callback.TrainerCallback]] = None optimizers: tuple = (None, None) optimizer_cls_and_kwargs: typing.Optional[tuple[type[torch.optim.optimizer.Optimizer], dict[str, typing.Any]]] = None preprocess_logits_for_metrics: typing.Optional[typing.Callable[[torch.Tensor, torch.Tensor], torch.Tensor]] = None )

引數

model (PreTrainedModel 或 torch.nn.Module, 可選) — 用於訓練、評估或預測的模型。如果未提供，則必須傳入 model_init。

Trainer 最佳化為與庫提供的 PreTrainedModel 配合使用。您仍然可以使用您自己的定義為 torch.nn.Module 的模型，只要它們與 🤗 Transformers 模型的工作方式相同。
args (TrainingArguments, 可選) — 訓練引數。如果未提供，將預設使用 TrainingArguments 的基本例項，其中 output_dir 設定為當前目錄中名為 tmp_trainer 的目錄。
data_collator (DataCollator, 可選) — 用於從 train_dataset 或 eval_dataset 元素列表中形成批次的功能。如果未提供 processing_class，則預設使用 default_data_collator()；否則，如果 processing_class 是特徵提取器或分詞器，則預設使用 DataCollatorWithPadding 的例項。
train_dataset (Union[torch.utils.data.Dataset, torch.utils.data.IterableDataset, datasets.Dataset], 可選) — 用於訓練的資料集。如果是 Dataset，則會自動刪除 model.forward() 方法不接受的列。

請注意，如果它是帶有某些隨機化的 torch.utils.data.IterableDataset 並且您正在分散式訓練，則您的可迭代資料集應使用內部屬性 generator，該屬性是用於隨機化的 torch.Generator，在所有程序上必須相同（訓練器將在每個 epoch 手動設定此 generator 的種子），或者具有一個 set_epoch() 方法，該方法在內部設定使用的 RNG 的種子。
eval_dataset (Union[torch.utils.data.Dataset, dict[str, torch.utils.data.Dataset, datasets.Dataset]), 可選) — 用於評估的資料集。如果是 Dataset，則會自動刪除 model.forward() 方法不接受的列。如果是一個字典，它將對每個資料集進行評估，並將字典鍵新增到指標名稱之前。
processing_class (PreTrainedTokenizerBase 或 BaseImageProcessor 或 FeatureExtractionMixin 或 ProcessorMixin, 可選) — 用於處理資料的處理類。如果提供，將用於自動處理模型的輸入，並將與模型一起儲存，以便於重新執行中斷的訓練或重新使用微調後的模型。這取代了現在已棄用的 tokenizer 引數。
model_init (Callable[[], PreTrainedModel], 可選) — 例項化要使用的模型的功能。如果提供，每次呼叫 train() 都將從此函式給定的模型新例項開始。

該函式可以沒有引數，也可以有一個引數，包含 optuna/Ray Tune/SigOpt 試驗物件，以便根據超引數（例如層數、內部層大小、dropout 機率等）選擇不同的架構。
compute_loss_func (Callable, 可選) — 一個函式，它接受原始模型輸出、標籤以及整個累積批次（batch_size * 梯度累積步數）中的專案數量，並返回損失。例如，請參見 Trainer 使用的預設損失函式。
compute_metrics (Callable[[EvalPrediction], Dict], 可選) — 將用於計算評估指標的函式。必須接受 EvalPrediction 並返回一個從字串到度量值的字典。注意：當傳遞 batch_eval_metrics 設定為 True 的 TrainingArgs 時，您的 compute_metrics 函式必須接受一個布林 compute_result 引數。這將在最後一個評估批次之後觸發，以指示該函式需要計算並返回全域性彙總統計資訊，而不是累積批次級別的統計資訊。
callbacks (List of TrainerCallback, 可選) — 回撥列表，用於自定義訓練迴圈。將新增到此處詳細描述的預設回撥列表中。

如果您想刪除使用的預設回撥之一，請使用 Trainer.remove_callback() 方法。
optimizers (tuple[torch.optim.Optimizer, torch.optim.lr_scheduler.LambdaLR], 可選, 預設為 (None, None)) — 包含要使用的最佳化器和排程器的元組。如果未提供，將預設使用模型上的 AdamW 例項和由 args 控制的 get_linear_schedule_with_warmup() 給出的排程器。
optimizer_cls_and_kwargs (tuple[Type[torch.optim.Optimizer], dict[str, Any]], 可選) — 包含最佳化器類和要使用的關鍵字引數的元組。它會覆蓋 args 中的 optim 和 optim_args。與 optimizers 引數不相容。

與 optimizers 不同，此引數避免了在初始化 Trainer 之前將模型引數放置在正確裝置上的需要。
preprocess_logits_for_metrics (Callable[[torch.Tensor, torch.Tensor], torch.Tensor], 可選) — 一個函式，用於在每個評估步驟快取 logits 之前對其進行預處理。必須接受兩個張量，即 logits 和標籤，並返回處理後的 logits。此函式所做的修改將反映在 compute_metrics 接收到的預測中。

請注意，如果資料集中沒有標籤，則標籤（第二個引數）將為 None。

Trainer 是一個簡單但功能齊全的 PyTorch 訓練和評估迴圈，針對 🤗 Transformers 進行了最佳化。

重要屬性

model — 始終指向核心模型。如果使用 transformers 模型，它將是 PreTrainedModel 子類。
model_wrapped — 如果一個或多個其他模組包裝了原始模型，則始終指向最外部的模型。這是應該用於前向傳播的模型。例如，在 DeepSpeed 下，內部模型被包裝在 DeepSpeed 中，然後再次包裝在 torch.nn.DistributedDataParallel 中。如果內部模型未被包裝，則 self.model_wrapped 與 self.model 相同。
is_model_parallel — 模型是否已切換到模型並行模式（與資料並行不同，這意味著一些模型層分佈在不同的 GPU 上）。
place_model_on_device — 是否自動將模型放置在裝置上——如果使用模型並行或 deepspeed，或者如果預設的 TrainingArguments.place_model_on_device 被覆蓋為返回 False，則將其設定為 False。
is_in_train — 模型當前是否正在執行 train（例如，當在 train 中呼叫 evaluate 時）

添加回調

< 來源 >

( callback )

引數

callback (type 或 [`~transformers.TrainerCallback]`) — 一個 TrainerCallback 類或 TrainerCallback 的例項。在第一種情況下，將例項化該類的一個成員。

將回調新增到當前 TrainerCallback 列表中。

autocast_smart_context_manager

< 來源 >

( cache_enabled: typing.Optional[bool] = True )

一個輔助包裝器，用於根據情況建立適當的 autocast 上下文管理器，並向其提供所需的引數。

計算損失

< 來源 >

( model: Module inputs: dict return_outputs: bool = False num_items_in_batch: typing.Optional[torch.Tensor] = None )

引數

model (nn.Module) — 用於計算損失的模型。
inputs (dict[str, Union[torch.Tensor, Any]]) — 模型的輸入資料。
return_outputs (bool, 可選, 預設為 False) — 是否返回模型輸出以及損失。
num_items_in_batch (Optional[torch.Tensor], 可選) — 批次中的專案數。如果未傳遞 num_items_in_batch，

Trainer 計算損失的方式。預設情況下，所有模型都在第一個元素中返回損失。

為了自定義行為，請繼承並覆蓋此方法。如果您在計算損失時不使用 num_items_in_batch，請確保將 self.model_accepts_loss_kwargs 設定為 False。否則，在執行梯度累積時，損失計算可能會略微不準確。

compute_loss_context_manager

< 來源 >

( )

用於將上下文管理器分組的輔助包裝器。

建立模型卡片

< 來源 >

( language: typing.Optional[str] = None license: typing.Optional[str] = None tags: typing.Union[str, list[str], NoneType] = None model_name: typing.Optional[str] = None finetuned_from: typing.Optional[str] = None tasks: typing.Union[str, list[str], NoneType] = None dataset_tags: typing.Union[str, list[str], NoneType] = None dataset: typing.Union[str, list[str], NoneType] = None dataset_args: typing.Union[str, list[str], NoneType] = None )

引數

language (str, 可選) — 模型語言（如果適用）
license (str, 可選) — 模型的許可。如果提供給 Trainer 的原始模型來自 Hub 上的儲存庫，則預設使用預訓練模型的許可。
tags (str 或 list[str], 可選) — 要包含在模型卡片元資料中的標籤。
model_name (str, 可選) — 模型名稱。
finetuned_from (str, 可選) — 用於微調此模型的模型名稱（如果適用）。如果提供給 Trainer 的原始模型來自 Hub，則預設使用該模型的儲存庫名稱。
tasks (str 或 list[str], 可選) — 一個或多個任務識別符號，將包含在模型卡片的元資料中。
dataset_tags (str 或 list[str], 可選) — 一個或多個數據集標籤，將包含在模型卡片元資料中。
dataset (str 或 list[str], 可選) — 一個或多個數據集識別符號，將包含在模型卡片元資料中。
dataset_args (str 或 list[str], 可選) — 一個或多個數據集引數，將包含在模型卡片元資料中。

使用 Trainer 可用的資訊建立模型卡片的草稿。

建立最佳化器

< 來源 >

( )

設定最佳化器。

我們提供了一個合理的預設值，效果很好。如果您想使用其他東西，可以透過 optimizers 在 Trainer 的初始化中傳入一個元組，或者在子類中繼承並覆蓋此方法。

建立最佳化器和排程器

< 來源 >

( num_training_steps: int )

設定最佳化器和學習率排程器。

我們提供了一個合理的預設值，效果很好。如果您想使用其他東西，可以透過 optimizers 在 Trainer 的初始化中傳入一個元組，或者在子類中繼承並覆蓋此方法（或 create_optimizer 和/或 create_scheduler）。

建立排程器

< 來源 >

( num_training_steps: int optimizer: Optimizer = None )

引數

num_training_steps (int) — 要執行的訓練步數。

設定排程器。訓練器的最佳化器必須在此方法呼叫之前或作為引數傳入之前已設定。

評估

< 來源 >

( eval_dataset: typing.Union[torch.utils.data.dataset.Dataset, dict[str, torch.utils.data.dataset.Dataset], NoneType] = None ignore_keys: typing.Optional[list[str]] = None metric_key_prefix: str = 'eval' )

引數

eval_dataset (Union[Dataset, dict[str, Dataset]), 可選) — 如果您希望覆蓋 self.eval_dataset，請傳遞一個數據集。如果它是 Dataset，則會自動刪除 model.forward() 方法不接受的列。如果它是一個字典，它將對每個資料集進行評估，並將字典鍵新增到指標名稱之前。資料集必須實現 __len__ 方法。

如果您傳入一個以資料集名稱為鍵、以資料集為值的字典，則評估將在每個資料集上獨立執行。這對於監控訓練如何影響其他資料集或僅獲得更細粒度的評估非常有用。當與 load_best_model_at_end 一起使用時，請確保 metric_for_best_model 精確引用其中一個數據集。例如，如果您為兩個資料集 data1 和 data2 傳入 {"data1": data1, "data2": data2}，則可以指定 metric_for_best_model="eval_data1_loss" 以使用 data1 上的損失，或 metric_for_best_model="eval_data2_loss" 以使用 data2 上的損失。
ignore_keys (list[str], 可選) — 模型輸出（如果是字典）中應在收集預測時忽略的鍵列表。
metric_key_prefix (str, 可選, 預設為 "eval") — 可選字首，用作度量鍵字首。例如，如果字首為“eval”（預設），則度量“bleu”將被命名為“eval_bleu”

執行評估並返回指標。

呼叫指令碼將負責提供計算指標的方法，因為它們是任務相關的（將其傳遞給 init compute_metrics 引數）。

您也可以繼承並覆蓋此方法以注入自定義行為。

evaluation_loop

< 來源 >

( dataloader: DataLoader description: str prediction_loss_only: typing.Optional[bool] = None ignore_keys: typing.Optional[list[str]] = None metric_key_prefix: str = 'eval' )

預測/評估迴圈，由 Trainer.evaluate() 和 Trainer.predict() 共享。

無論有無標籤均可工作。

Transformers

訓練器

Trainer

類 transformers.Trainer

添加回調

autocast_smart_context_manager

計算損失

compute_loss_context_manager

建立模型卡片

建立最佳化器

建立最佳化器和排程器

建立排程器

評估

evaluation_loop

浮點運算

get_batch_samples

get_decay_parameter_names

get_eval_dataloader

get_learning_rates

get_num_trainable_parameters

get_optimizer_cls_and_kwargs

get_optimizer_group

get_test_dataloader

get_total_train_batch_size

get_tp_size

get_train_dataloader

hyperparameter_search

init_hf_repo

is_local_process_zero

is_world_process_zero

log

log_metrics

metrics_format

num_examples

num_tokens

pop_callback

predict

prediction_loop

prediction_step

propagate_args_to_deepspeed

push_to_hub

remove_callback

save_metrics

save_model

save_state

set_initial_training_values

train

training_step

Seq2SeqTrainer

class transformers.Seq2SeqTrainer

評估

predict

TrainingArguments

class transformers.TrainingArguments

get_process_log_level

get_warmup_steps

main_process_first

set_dataloader

set_evaluate

set_logging

set_lr_scheduler

set_optimizer

set_push_to_hub

set_save

set_testing

set_training

to_dict

to_json_string

to_sanitized_dict

Seq2SeqTrainingArguments

class transformers.Seq2SeqTrainingArguments

to_dict