使用 Optimum 在 Intel Gaudi 上進行分散式訓練

隨著模型變得越來越大，並行性已成為在有限硬體上訓練更大模型並將其訓練速度提高几個數量級的策略。

所有 PyTorch 示例和 GaudiTrainer 指令碼均可直接用於分散式訓練。有兩種啟動方式：

使用 gaudi_spawn.py 指令碼
- 使用 MPI 進行分散式訓練
```
python gaudi_spawn.py \
    --world_size number_of_hpu_you_have --use_mpi \
    path_to_script.py --args1 --args2 ... --argsN
```
  其中 --argX 是以分散式方式執行的指令碼的引數。問答示例此處，文字分類示例此處。
- 使用 DeepSpeed 進行分散式訓練
```
python gaudi_spawn.py \
    --world_size number_of_hpu_you_have --use_deepspeed \
    path_to_script.py --args1 --args2 ... --argsN
```
  其中 --argX 是以分散式方式執行的指令碼的引數。問答示例此處，文字分類示例此處。

直接在程式碼中使用 DistributedRunner

from optimum.habana.distributed import DistributedRunner
from optimum.utils import logging

world_size=8 # Number of HPUs to use (1 or 8)

# define distributed runner
distributed_runner = DistributedRunner(
    command_list=["scripts/train.py --args1 --args2 ... --argsN"],
    world_size=world_size,
    use_mpi=True,
)

# start job
ret_code = distributed_runner.run()

您可以將訓練引數 --distribution_strategy fast_ddp 設定為更簡單且通常更快的分散式訓練管理。更多資訊請參閱此處。

如需進一步瞭解，我們邀請您閱讀我們的指南：

加速訓練
預訓練
DeepSpeed 訓練更大的模型
多節點訓練進一步加速您的分散式執行

< > 在 GitHub 上更新