Transformers 文件

AQLM

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

AQLM

語言模型的加性量化(AQLM)將多個權重一起量化,並利用它們之間的相互依賴性。AQLM 將 8-16 個權重組表示為多個向量碼的總和。

AQLM 還支援使用 LoRAPEFT 庫進行微調,並且完全相容 torch.compile,以實現更快的推理和訓練。

執行以下命令安裝 AQLM 庫,該庫支援 GPU 和 CPU 推理和訓練的核心。AQLM 僅適用於 Python 3.10+。

pip install aqlm[gpu,cpu]

使用 from_pretrained() 載入 AQLM 量化模型。

from transformers import AutoTokenizer, AutoModelForCausalLM

quantized_model = AutoModelForCausalLM.from_pretrained(
    "ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf",
    torch_dtype="auto", 
    device_map="auto"
)

配置

AQLM 量化設定主要在使用的碼本數量以及碼本大小(以位為單位)方面有所不同。最流行的設定和支援的推理核心如下所示。

核心 碼本數量 碼本大小,位 表示法 準確率 加速比 快速 GPU 推理 快速 CPU 推理
Triton K N KxN - 最高約 0.7x
CUDA 1 16 1x16 最佳 最高約 1.3x
CUDA 2 8 2x8 良好 最高約 3.0x
Numba K 8 Kx8 良好 最高約 4.0x

資源

執行 AQLM 演示 筆記本,獲取更多關於如何量化模型、將量化模型推送到 Hub 等示例。

更多示例演示筆記本,請訪問 AQLM 倉庫

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.