Transformers
加入 Hugging Face 社群
並獲得增強的文件體驗
SpQR
SpQR 量化演算法採用 16x16 瓦片式雙層組 3 位量化結構,並帶有稀疏離群值。
要使用 SpQR 量化模型,請參考 Vahe1994/SpQR 儲存庫。
使用 from_pretrained() 載入 SpQR 量化模型。
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
quantized_model = AutoModelForCausalLM.from_pretrained(
"elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf",
torch_dtype=torch.half,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf")
< > 在 GitHub 上更新
© . This site is unofficial and not affiliated with Hugging Face, Inc.