Optimum 文件
量化
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
量化
Intel® Gaudi® 提供了多種加速推理的可能性。有關推理的 FP8 和 UINT4 示例,請參閱 文字生成 示例。
本指南提供了使用 Intel® Neural Compressor (INC) 包在 Intel® Gaudi® AI 加速器上啟用 FP8 和 UINT4 精度的所需步驟。
使用 FP8 執行推理
在大型語言模型 (LLM) 上執行推理時,高記憶體使用通常是瓶頸。因此,對大型語言模型使用 FP8 資料型別進行推理,可將所需的記憶體頻寬減半。此外,FP8 計算速度是 BF16 計算的兩倍,因此即使是計算密集型工作負載,例如大型批次離線推理也能從中受益。
參考 使用 FP8 執行推理 部分,位於 Intel® Gaudi® AI 加速器文件。
使用 UINT4 執行推理
在大型語言模型 (LLM) 上執行推理時,高記憶體使用通常是瓶頸。因此,與使用 FP8 執行推理相比,對大型語言模型使用 UINT4 資料型別進行推理可將所需的記憶體頻寬減半。
參考 使用 UINT4 執行推理 部分,位於 Intel® Gaudi® AI 加速器文件。
< > 在 GitHub 上更新