Transformers 文件
FBGEMM
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
FBGEMM
FBGEMM (Facebook 通用矩陣乘法) 是一個低精度矩陣乘法庫,適用於小批次大小,並支援減少精度損失的技術,如逐行量化和異常值感知量化。使用 FBGEMM,可以將模型權重量化為 8 位/通道,將啟用量化為 8 位/token(也稱為 fp8 或 w8a8)。
您需要一個具有 計算能力 9+ 的 GPU,例如 H100。
使用以下命令安裝 FBGEMM_GPU 包,以確保您擁有最新版本。
pip install --upgrade accelerate fbgemm-gpu torch
如果您遇到安裝問題,請嘗試安裝 nightly 版本。
建立一個 FbgemmFp8Config 並將其傳遞給 from_pretrained() 以將模型量化為 fp8。
from transformers import FbgemmFp8Config, AutoModelForCausalLM
quantization_config = FbgemmFp8Config()
quantized_model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Meta-Llama-3-8B",
torch_dtype="auto",
device_map="auto",
quantization_config=quantization_config
)
save_pretrained() 和 from_pretrained() 支援儲存和載入量化模型。
quant_path = "/path/to/save/quantized/model"
model.save_pretrained(quant_path)
model = AutoModelForCausalLM.from_pretrained(quant_path, device_map="auto")
資源
閱讀 開源 FBGEMM 以實現最先進的伺服器端推理 部落格文章,瞭解更多 FBGEMM 詳情。
< > 在 GitHub 上更新