Bitsandbytes 文件
bitsandbytes
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
bitsandbytes
bitsandbytes 透過 PyTorch 的 k-bit 量化技術,讓大型語言模型變得觸手可及。bitsandbytes 提供了三個主要功能,可顯著減少推理和訓練時的記憶體消耗:
- 8位最佳化器使用分塊量化技術,在僅佔用一小部分記憶體成本的情況下,保持了32位的效能。
- LLM.int8() 或8位量化技術,使大型語言模型推理所需的記憶體減半,且不會造成任何效能下降。該方法基於向量級量化,將大部分特徵量化為8位,並用16位矩陣乘法單獨處理異常值。
- QLoRA 或4位量化技術,透過多種不影響效能的記憶體節省技術,實現了大型語言模型的訓練。該方法將模型量化到4位,並插入一小組可訓練的低秩適配(LoRA)權重以支援訓練。
許可協議
bitsandbytes 採用 MIT 許可協議。
我們感謝 Fabio Cannizzo 在 FastBinarySearch 上的工作,我們將其用於 CPU 量化。
< > 在 GitHub 上更新