CPU

現代CPU能夠透過利用底層硬體內建的最佳化和在 fp16 或 bf16 資料型別上進行訓練來高效地訓練大型模型。

本指南重點介紹如何使用混合精度在 Intel CPU 上訓練大型模型。PyTorch 訓練的 CPU 後端已啟用 AMP。

Trainer 透過新增 --use_cpu 和 --bf16 引數支援 CPU 上的 AMP 訓練。以下示例演示了 run_qa.py 指令碼。

python run_qa.py \
 --model_name_or_path google-bert/bert-base-uncased \
 --dataset_name squad \
 --do_train \
 --do_eval \
 --per_device_train_batch_size 12 \
 --learning_rate 3e-5 \
 --num_train_epochs 2 \
 --max_seq_length 384 \
 --doc_stride 128 \
 --output_dir /tmp/debug_squad/ \
 --bf16 \
 --use_cpu

這些引數也可以新增到 TrainingArguments，如下所示。

training_args = TrainingArguments(
    output_dir="./outputs",
    bf16=True,
    use_cpu=True,
)

資源

在用 Intel Sapphire Rapids 加速 PyTorch Transformers 部落格文章中瞭解更多關於在 Intel CPU 上訓練的資訊。

< > 在 GitHub 上更新