加速器選擇

在分散式訓練期間，您可以指定要使用的加速器（CUDA、XPU、MPS、HPU 等）的數量和順序。當您擁有不同計算能力的加速器並希望優先使用更快的加速器時，這會很有用。或者您也可以只使用一部分可用的加速器。選擇過程適用於 DistributedDataParallel 和 DataParallel。您不需要 Accelerate 或 DeepSpeed 整合。

本指南將向您展示如何選擇要使用的加速器數量和使用它們的順序。

加速器數量

例如，如果有4個加速器，而您只想使用前2個，請執行以下命令。

torchrun

Accelerate

DeepSpeed

加速器順序

要選擇要使用的特定加速器及其順序，請使用適用於您硬體的環境變數。這通常在每次執行時在命令列上設定，但也可以新增到您的 ~/.bashrc 或其他啟動配置檔案中。

例如，如果有4個加速器（0、1、2、3），而您只想執行加速器0和2

CUDA

Intel XPU

環境變數可以匯出而不是新增到命令列。不建議這樣做，因為如果您忘記了環境變數的設定方式，並且最終使用了錯誤的加速器，可能會造成混淆。相反，通常的做法是在同一命令列上為特定的訓練執行設定環境變數。

< > 在 GitHub 上更新

Transformers

加速器選擇

加速器數量

加速器順序