Bitsandbytes 文件

bitsandbytes

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

bitsandbytes

bitsandbytes 透過 PyTorch 的 k-bit 量化技術,讓大型語言模型變得觸手可及。bitsandbytes 提供了三個主要功能,可顯著減少推理和訓練時的記憶體消耗:

  • 8位最佳化器使用分塊量化技術,在僅佔用一小部分記憶體成本的情況下,保持了32位的效能。
  • LLM.int8() 或8位量化技術,使大型語言模型推理所需的記憶體減半,且不會造成任何效能下降。該方法基於向量級量化,將大部分特徵量化為8位,並用16位矩陣乘法單獨處理異常值。
  • QLoRA 或4位量化技術,透過多種不影響效能的記憶體節省技術,實現了大型語言模型的訓練。該方法將模型量化到4位,並插入一小組可訓練的低秩適配(LoRA)權重以支援訓練。

許可協議

bitsandbytes 採用 MIT 許可協議。

我們感謝 Fabio Cannizzo 在 FastBinarySearch 上的工作,我們將其用於 CPU 量化。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.