AQLM

語言模型的加性量化（AQLM）將多個權重一起量化，並利用它們之間的相互依賴性。AQLM 將 8-16 個權重組表示為多個向量碼的總和。

AQLM 還支援使用 LoRA 和 PEFT 庫進行微調，並且完全相容 torch.compile，以實現更快的推理和訓練。

執行以下命令安裝 AQLM 庫，該庫支援 GPU 和 CPU 推理和訓練的核心。AQLM 僅適用於 Python 3.10+。

pip install aqlm[gpu,cpu]

使用 from_pretrained() 載入 AQLM 量化模型。

from transformers import AutoTokenizer, AutoModelForCausalLM

quantized_model = AutoModelForCausalLM.from_pretrained(
    "ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf",
    torch_dtype="auto", 
    device_map="auto"
)

配置

AQLM 量化設定主要在使用的碼本數量以及碼本大小（以位為單位）方面有所不同。最流行的設定和支援的推理核心如下所示。

核心	碼本數量	碼本大小，位	表示法	準確率	加速比	快速 GPU 推理	快速 CPU 推理
Triton	K	N	KxN	-	最高約 0.7x	✅	❌
CUDA	1	16	1x16	最佳	最高約 1.3x	✅	❌
CUDA	2	8	2x8	良好	最高約 3.0x	✅	❌
Numba	K	8	Kx8	良好	最高約 4.0x	❌	✅

資源

執行 AQLM 演示筆記本，獲取更多關於如何量化模型、將量化模型推送到 Hub 等示例。

更多示例演示筆記本，請訪問 AQLM 倉庫。

< > 在 GitHub 上更新

Transformers

AQLM

配置

資源