Transformers 文件

FBGEMM

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

FBGEMM

FBGEMM (Facebook 通用矩陣乘法) 是一個低精度矩陣乘法庫,適用於小批次大小,並支援減少精度損失的技術,如逐行量化和異常值感知量化。使用 FBGEMM,可以將模型權重量化為 8 位/通道,將啟用量化為 8 位/token(也稱為 fp8 或 w8a8)。

您需要一個具有 計算能力 9+ 的 GPU,例如 H100。

使用以下命令安裝 FBGEMM_GPU 包,以確保您擁有最新版本。

pip install --upgrade accelerate fbgemm-gpu torch

如果您遇到安裝問題,請嘗試安裝 nightly 版本

建立一個 FbgemmFp8Config 並將其傳遞給 from_pretrained() 以將模型量化為 fp8。

from transformers import FbgemmFp8Config, AutoModelForCausalLM

quantization_config = FbgemmFp8Config()
quantized_model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3-8B",
    torch_dtype="auto",
    device_map="auto",
    quantization_config=quantization_config
)

save_pretrained()from_pretrained() 支援儲存和載入量化模型。

quant_path = "/path/to/save/quantized/model"
model.save_pretrained(quant_path)
model = AutoModelForCausalLM.from_pretrained(quant_path, device_map="auto")

資源

閱讀 開源 FBGEMM 以實現最先進的伺服器端推理 部落格文章,瞭解更多 FBGEMM 詳情。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.