Bitsandbytes 文件

bitsandbytes

Bitsandbytes

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

bitsandbytes

bitsandbytes 透過 PyTorch 的 k-bit 量化技術，讓大型語言模型變得觸手可及。bitsandbytes 提供了三個主要功能，可顯著減少推理和訓練時的記憶體消耗：

8位最佳化器使用分塊量化技術，在僅佔用一小部分記憶體成本的情況下，保持了32位的效能。
LLM.int8() 或8位量化技術，使大型語言模型推理所需的記憶體減半，且不會造成任何效能下降。該方法基於向量級量化，將大部分特徵量化為8位，並用16位矩陣乘法單獨處理異常值。
QLoRA 或4位量化技術，透過多種不影響效能的記憶體節省技術，實現了大型語言模型的訓練。該方法將模型量化到4位，並插入一小組可訓練的低秩適配（LoRA）權重以支援訓練。

許可協議

bitsandbytes 採用 MIT 許可協議。

我們感謝 Fabio Cannizzo 在 FastBinarySearch 上的工作，我們將其用於 CPU 量化。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.