BitNet

BitNet 用專門的 BitLinear 層替換了多頭注意力（Multi-Head Attention）和前饋網路中的傳統線性層。BitLinear 層使用三元精度（值為 -1、0 和 1）量化權重，並將啟用量化為 8 位精度。

BitNet 模型無法動態量化。它們需要在預訓練或微調期間進行量化，因為它是一種量化感知訓練 (QAT) 技術。在訓練期間，權重透過對稱的每張量量化被量化為三元值。

請參閱此 PR，以使用 Nanotron 預訓練或微調 1.58 位模型。對於微調，請將 Hugging Face 模型轉換為 Nanotron 格式。請在此 PR 中找到轉換步驟。

使用 from_pretrained() 載入 BitNet 量化模型。

from transformers import AutoModelForCausalLM
path = "/path/to/model"
model = AutoModelForCausalLM.from_pretrained(path, device_map="auto")

核心

@torch.compile 用於解包權重並執行前向傳播。它實現起來非常簡單，並且能顯著提高速度。未來版本中將整合額外的最佳化核心。

閱讀將 LLM 微調至 1.58 位：極致量化輕鬆實現，瞭解更多關於 BitNet 模型如何訓練和微調的資訊。