Transformers 文件
AQLM
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
AQLM
語言模型的加性量化(AQLM)將多個權重一起量化,並利用它們之間的相互依賴性。AQLM 將 8-16 個權重組表示為多個向量碼的總和。
AQLM 還支援使用 LoRA 和 PEFT 庫進行微調,並且完全相容 torch.compile,以實現更快的推理和訓練。
執行以下命令安裝 AQLM 庫,該庫支援 GPU 和 CPU 推理和訓練的核心。AQLM 僅適用於 Python 3.10+。
pip install aqlm[gpu,cpu]
使用 from_pretrained() 載入 AQLM 量化模型。
from transformers import AutoTokenizer, AutoModelForCausalLM
quantized_model = AutoModelForCausalLM.from_pretrained(
"ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf",
torch_dtype="auto",
device_map="auto"
)
配置
AQLM 量化設定主要在使用的碼本數量以及碼本大小(以位為單位)方面有所不同。最流行的設定和支援的推理核心如下所示。
核心 | 碼本數量 | 碼本大小,位 | 表示法 | 準確率 | 加速比 | 快速 GPU 推理 | 快速 CPU 推理 |
---|---|---|---|---|---|---|---|
Triton | K | N | KxN | - | 最高約 0.7x | ✅ | ❌ |
CUDA | 1 | 16 | 1x16 | 最佳 | 最高約 1.3x | ✅ | ❌ |
CUDA | 2 | 8 | 2x8 | 良好 | 最高約 3.0x | ✅ | ❌ |
Numba | K | 8 | Kx8 | 良好 | 最高約 4.0x | ❌ | ✅ |
資源
執行 AQLM 演示 筆記本,獲取更多關於如何量化模型、將量化模型推送到 Hub 等示例。
更多示例演示筆記本,請訪問 AQLM 倉庫。
< > 在 GitHub 上更新