Optimum 文件

量化

您正在檢視的是需要從原始碼安裝. 如果您想透過常規 pip 安裝,請檢視最新的穩定版本 (v1.27.0)。
Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

量化

Intel® Gaudi® 提供了多種加速推理的可能性。有關推理的 FP8 和 UINT4 示例,請參閱 文字生成 示例。

本指南提供了使用 Intel® Neural Compressor (INC) 包在 Intel® Gaudi® AI 加速器上啟用 FP8 和 UINT4 精度的所需步驟。

使用 FP8 執行推理

在大型語言模型 (LLM) 上執行推理時,高記憶體使用通常是瓶頸。因此,對大型語言模型使用 FP8 資料型別進行推理,可將所需的記憶體頻寬減半。此外,FP8 計算速度是 BF16 計算的兩倍,因此即使是計算密集型工作負載,例如大型批次離線推理也能從中受益。

參考 使用 FP8 執行推理 部分,位於 Intel® Gaudi® AI 加速器文件

使用 UINT4 執行推理

在大型語言模型 (LLM) 上執行推理時,高記憶體使用通常是瓶頸。因此,與使用 FP8 執行推理相比,對大型語言模型使用 UINT4 資料型別進行推理可將所需的記憶體頻寬減半。

參考 使用 UINT4 執行推理 部分,位於 Intel® Gaudi® AI 加速器文件

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.