Optimum 文件

量化

Optimum

概覽

🤗 Optimum 安裝快速導覽筆記本

概念指南

英偉達

AMD

Intel

AWS Trainium/Inferentia

Google TPUs

適用於 Intel Gaudi

🤗 適用於 Intel Gaudi 的 Optimum 安裝快速入門

教程

操作指南

概述指令碼適配預訓練 Transformers 加速訓練加速推理如何使用 DeepSpeed 多節點訓練量化

參考

ExecuTorch

Furiosa

ONNX Runtime

匯出器

Torch FX

LLM 量化

實用工具

您正在檢視的是需要從原始碼安裝. 如果您想透過常規 pip 安裝，請檢視最新的穩定版本 (v1.27.0)。

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

量化

Intel® Gaudi® 提供了多種加速推理的可能性。有關推理的 FP8 和 UINT4 示例，請參閱文字生成示例。

本指南提供了使用 Intel® Neural Compressor (INC) 包在 Intel® Gaudi® AI 加速器上啟用 FP8 和 UINT4 精度的所需步驟。

使用 FP8 執行推理

在大型語言模型 (LLM) 上執行推理時，高記憶體使用通常是瓶頸。因此，對大型語言模型使用 FP8 資料型別進行推理，可將所需的記憶體頻寬減半。此外，FP8 計算速度是 BF16 計算的兩倍，因此即使是計算密集型工作負載，例如大型批次離線推理也能從中受益。

參考使用 FP8 執行推理部分，位於 Intel® Gaudi® AI 加速器文件。

使用 UINT4 執行推理

在大型語言模型 (LLM) 上執行推理時，高記憶體使用通常是瓶頸。因此，與使用 FP8 執行推理相比，對大型語言模型使用 UINT4 資料型別進行推理可將所需的記憶體頻寬減半。

參考使用 UINT4 執行推理部分，位於 Intel® Gaudi® AI 加速器文件。

< > 在 GitHub 上更新

←多節點訓練 Gaudi 訓練器→

© . This site is unofficial and not affiliated with Hugging Face, Inc.