HIGGS

HIGGS 是一種零樣本量化演算法，它將哈達瑪預處理與 MSE-最優量化網格相結合，以實現更低的量化誤差和最先進的效能。

HIGGS 的執行時支援透過 FLUTE 庫實現。目前僅支援 Llama 3 和 Llama 3.0 的 70B 和 405B 變體，以及 Gemma 2 的 8B 和 27B 變體。HIGGS 目前通常也不支援量化訓練和反向傳播。

執行以下命令安裝 FLUTE。

CUDA 12.1

CUDA 11.8

使用要將模型量化到的位數建立 HiggsConfig。

from transformers import AutoModelForCausalLM, AutoTokenizer, HiggsConfig

model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    quantization_config=HiggsConfig(bits=4),
    device_map="auto",
)

在官方 ISTA-DASLab collection 中查詢已使用 HIGGS 預量化的模型。

torch.compile

HIGGS 完全相容 torch.compile。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, HiggsConfig

model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    quantization_config=HiggsConfig(bits=4),
    device_map="auto",
)

model = torch.compile(model)

請參考下表，瞭解在 RTX4090 上 Llama-3.1-8B-Instruct 的每秒前向傳播基準。

批次大小	BF16（帶 `torch.compile`）	HIGGS 4位（不帶 `torch.compile`）	HIGGS 4位（帶 `torch.compile`）
1	59	41	124
4	57	42	123
16	56	41	120

< > 在 GitHub 上更新

Transformers

HIGGS

torch.compile