Accelerate

Intel Gaudi

使用者可以利用 Intel Gaudi AI 加速器，以顯著更快、更具成本效益的方式進行模型訓練和推理。Intel Gaudi AI 加速器系列目前包括三代產品：Intel Gaudi 1、Intel Gaudi 2 和 Intel Gaudi 3。每臺伺服器都配備了 8 個裝置，稱為 Habana 處理單元（HPUs），其中 Gaudi 3 提供 128GB 記憶體，Gaudi 2 提供 96GB 記憶體，第一代 Gaudi 提供 32GB 記憶體。有關底層硬體架構的更多詳細資訊，請檢視 Gaudi 架構概述。

開箱即用的工作原理

如果檢測到 Intel Gaudi 裝置，該功能將預設啟用。要停用它，請在 `accelerate launch` 命令中傳遞 `--cpu` 標誌，或在 `accelerate config` 問卷中回答相應的問題。

你可以直接執行以下指令碼在 Intel Gaudi 上進行測試。

accelerate launch /examples/cv_example.py --data_dir images

限制

以下功能不屬於 Accelerate 庫，需要使用 Optimum for Intel Gaudi

`fast_ddp` 透過對梯度應用 all-reduce 來實現 DDP，而不是使用 Torch DDP 包裝器。
`minimize_memory` 用於 fp8 訓練，並允許在前向和後向傳播之間將 fp8 權重保留在記憶體中，從而以額外的 fp8 型別轉換為代價減少記憶體佔用。
`context_parallel_size` 用於上下文/序列並行（CP/SP），它沿著序列維度對網路輸入和啟用進行分割槽，以減少記憶體佔用並提高吞吐量。

< > 在 GitHub 上更新