量化

量化技術透過使用較低精度的資料型別（如 8 位整數 int8）來表示權重和啟用值，從而降低記憶體和計算成本。這使得你可以載入通常無法放入記憶體的更大模型，並加快推理速度。Transformers 支援 AWQ 和 GPTQ 量化演算法，並且支援使用 bitsandbytes 進行 8 位和 4 位量化。

Transformers 中不支援的量化技術可以透過 HfQuantizer 類新增。

在量化指南中學習如何量化模型。

QuantoConfig

class transformers.QuantoConfig

< 原始碼 >

( weights = 'int8' activations = None modules_to_not_convert: typing.Optional[list] = None **kwargs )

引數

weights (str, 可選, 預設為 "int8") — 量化後權重的目標資料型別。支援的值為（“float8”,“int8”,“int4”,“int2”）
activations (str, 可選) — 量化後啟用值的目標資料型別。支援的值為 (None,“int8”,“float8”)
modules_to_not_convert (list, 可選, 預設為 None) — 不進行量化的模組列表，這對於量化那些明確要求某些模組保持原始精度的模型很有用（例如 Whisper 編碼器、Llava 編碼器、Mixtral 門控層）。

這是一個封裝類，包含了所有在使用 quanto 載入的模型中可以調整的屬性和功能。

post_init

< 原始碼 >

( )

檢查引數是否正確的安全檢查器

AqlmConfig

class transformers.AqlmConfig

< 原始碼 >

( in_group_size: int = 8 out_group_size: int = 1 num_codebooks: int = 1 nbits_per_codebook: int = 16 linear_weights_not_to_quantize: typing.Optional[list[str]] = None **kwargs )

引數

in_group_size (int, 可選, 預設為 8) — 沿輸入維度的分組大小。
out_group_size (int, 可選, 預設為 1) — 沿輸出維度的分組大小。建議始終使用 1。
num_codebooks (int, 可選, 預設為 1) — 加性量化（Additive Quantization）過程中的碼本數量。
nbits_per_codebook (int, 可選, 預設為 16) — 編碼單個碼本向量的位數。碼本大小為 2**nbits_per_codebook。
linear_weights_not_to_quantize (Optional[list[str]], 可選) — 不應被量化的 nn.Linear 權重引數的完整路徑列表。
kwargs (dict[str, Any], 可選) — 用於初始化配置物件的附加引數。

這是一個關於 aqlm 引數的封裝類。

post_init

< 原始碼 >

( )

檢查引數是否正確的安全檢查器 - 同時會將一些 NoneType 引數替換為其預設值。

VptqConfig

class transformers.VptqConfig

< 原始碼 >

( enable_proxy_error: bool = False config_for_layers: dict = {} shared_layer_config: dict = {} modules_to_not_convert: typing.Optional[list] = None **kwargs )

引數

enable_proxy_error (bool, 可選, 預設為 False) — 計算每層的代理誤差
config_for_layers (Dict, 可選, 預設為 {}) — 每層的量化引數
shared_layer_config (Dict, 可選, 預設為 {}) — 層之間共享的量化引數
modules_to_not_convert (list, 可選, 預設為 None) — 不進行量化的模組列表，這對於量化那些明確要求某些模組保持原始精度的模型很有用（例如 Whisper 編碼器、Llava 編碼器、Mixtral 門控層）。
kwargs (dict[str, Any], 可選) — 用於初始化配置物件的附加引數。

這是一個關於 vptq 引數的封裝類。

post_init

< 原始碼 >

( )

檢查引數是否正確的安全檢查器

AwqConfig

class transformers.AwqConfig

< 原始碼 >

( bits: int = 4 group_size: int = 128 zero_point: bool = True version: AWQLinearVersion = <AWQLinearVersion.GEMM: 'gemm'> backend: AwqBackendPackingMethod = <AwqBackendPackingMethod.AUTOAWQ: 'autoawq'> do_fuse: typing.Optional[bool] = None fuse_max_seq_len: typing.Optional[int] = None modules_to_fuse: typing.Optional[dict] = None modules_to_not_convert: typing.Optional[list] = None exllama_config: typing.Optional[dict[str, int]] = None **kwargs )

引數

bits (int, 可選, 預設為 4) — 量化到的位數。
group_size (int, 可選, 預設為 128) — 用於量化的分組大小。推薦值為 128，-1 表示使用逐列量化。
zero_point (bool, 可選, 預設為 True) — 是否使用零點量化。
version (AWQLinearVersion, 可選, 預設為 AWQLinearVersion.GEMM) — 使用的量化演算法版本。GEMM 對於大批次大小（例如 >= 8）更好，否則 GEMV 更好（例如 < 8）。GEMM 模型與 Exllama 核心相容。
backend (AwqBackendPackingMethod, 可選, 預設為 AwqBackendPackingMethod.AUTOAWQ) — 量化後端。一些模型可能使用 llm-awq 後端進行量化。這對於使用 llm-awq 庫量化自己模型的使用者很有用。
do_fuse (bool, 可選, 預設為 False) — 是否將注意力和 mlp 層融合在一起以加快推理速度
fuse_max_seq_len (int, 可選) — 使用融合時生成的最長序列長度。
modules_to_fuse (dict, 可選, 預設為 None) — 使用使用者指定的融合方案覆蓋原生支援的融合方案。
modules_to_not_convert (list, 可選, 預設為 None) — 不進行量化的模組列表，這對於量化那些明確要求某些模組保持原始精度的模型很有用（例如 Whisper 編碼器、Llava 編碼器、Mixtral 門控層）。請注意，您不能直接使用 transformers 進行量化，請參閱 AutoAWQ 文件以量化 HF 模型。
exllama_config (dict[str, Any], 可選) — 您可以透過 version 鍵指定 exllama 核心的版本，透過 max_input_len 鍵指定最大序列長度，以及透過 max_batch_size 鍵指定最大批次大小。如果未設定，則預設為 {"version": 2, "max_input_len": 2048, "max_batch_size": 8}。

這是一個封裝類，包含了所有在使用 auto-awq 庫的 awq 量化（依賴 auto_awq 後端）載入的模型中可以調整的屬性和功能。

post_init

< 原始碼 >

( )

檢查引數是否正確的安全檢查器

EetqConfig

class transformers.EetqConfig

< 原始碼 >

( weights: str = 'int8' modules_to_not_convert: typing.Optional[list] = None **kwargs )

引數

weights (str, 可選, 預設為 "int8") — 權重的目標資料型別。僅支援 “int8”。
modules_to_not_convert (list, 可選, 預設為 None) — 不進行量化的模組列表，這對於量化那些明確要求某些模組保持原始精度的模型很有用。

這是一個封裝類，包含了所有在使用 eetq 載入的模型中可以調整的屬性和功能。

post_init

< 原始碼 >

( )

檢查引數是否正確的安全檢查器

GPTQConfig

class transformers.GPTQConfig

< 原始碼 >

( bits: int tokenizer: typing.Any = None dataset: typing.Union[list[str], str, NoneType] = None group_size: int = 128 damp_percent: float = 0.1 desc_act: bool = False sym: bool = True true_sequential: bool = True checkpoint_format: str = 'gptq' meta: typing.Optional[dict[str, typing.Any]] = None backend: typing.Optional[str] = None use_cuda_fp16: bool = False model_seqlen: typing.Optional[int] = None block_name_to_quantize: typing.Optional[str] = None module_name_preceding_first_block: typing.Optional[list[str]] = None batch_size: int = 1 pad_token_id: typing.Optional[int] = None use_exllama: typing.Optional[bool] = None max_input_length: typing.Optional[int] = None exllama_config: typing.Optional[dict[str, typing.Any]] = None cache_block_outputs: bool = True modules_in_block_to_quantize: typing.Optional[list[list[str]]] = None **kwargs )

引數

bits (int) — 量化的位數，支援的數字為 (2, 3, 4, 8)。
tokenizer (str 或 PreTrainedTokenizerBase, optional) — 用於處理資料集的 tokenizer。您可以傳遞以下任一型別：
- 一個自定義的 tokenizer 物件。
- 一個字串，即託管在 huggingface.co 模型倉庫中的預定義 tokenizer 的模型 ID。
- 一個包含 tokenizer 所需詞彙檔案的目錄路徑，例如使用 save_pretrained() 方法儲存的目錄，例如 ./my_model_directory/。
dataset (Union[list[str]], optional) — 用於量化的資料集。您可以提供自己的字串列表形式的資料集，或者直接使用 GPTQ 論文中使用的原始資料集 [‘wikitext2’,‘c4’,‘c4-new’]。
group_size (int, optional, defaults to 128) — 用於量化的分組大小。推薦值為 128，-1 表示使用逐列量化。
damp_percent (float, optional, defaults to 0.1) — 用於阻尼的平均海森矩陣對角線百分比。推薦值為 0.1。
desc_act (bool, optional, defaults to False) — 是否按啟用值大小降序量化列。將其設定為 False 可以顯著加快推理速度，但困惑度可能會略有下降。也稱為 act-order。
sym (bool, optional, defaults to True) — 是否使用對稱量化。
true_sequential (bool, optional, defaults to True) — 是否在單個 Transformer 塊內也執行順序量化。我們不一次性量化整個塊，而是執行逐層量化。因此，每一層都使用透過先前量化層的輸入進行量化。
checkpoint_format (str, optional, defaults to "gptq") — GPTQ 權重格式。gptq(v1) 同時被 gptqmodel 和 auto-gptq 支援。gptq_v2 僅 gptqmodel 支援。
meta (dict[str, any], optional) — 不直接影響量化或量化推理的屬性（如 tooling:version）儲存在 meta 中。例如 meta.quantizer: [“optimum:version”, “gptqmodel:version”]
backend (str, optional) — 控制使用哪個 gptq 核心。對於 gptqmodel，有效值為 auto、auto_trainable 等。對於 auto-gptq，有效值僅為 None 和 auto_trainable。參考 gptqmodel 後端： https://github.com/ModelCloud/GPTQModel/blob/main/gptqmodel/utils/backend.py
use_cuda_fp16 (bool, optional, defaults to False) — 是否為 fp16 模型使用最佳化的 CUDA 核心。需要模型為 fp16 格式。僅 auto-gptq 支援。
model_seqlen (int, optional) — 模型可以接受的最大序列長度。
block_name_to_quantize (str, optional) — 要量化的 transformers 塊名稱。如果為 None，將使用通用模式（例如 model.layers）推斷塊名稱。
module_name_preceding_first_block (list[str], optional) — 在第一個 Transformer 塊之前的層。
batch_size (int, optional, defaults to 1) — 處理資料集時使用的批大小。
pad_token_id (int, optional) — 填充標記的 ID。當 batch_size > 1 時，準備資料集需要此引數。
use_exllama (bool, optional) — 是否使用 exllama 後端。如果未設定，預設為 True。僅在 bits = 4 時有效。
max_input_length (int, optional) — 最大輸入長度。需要此引數來初始化一個依賴於最大預期輸入長度的緩衝區。此引數特定於使用 act-order 的 exllama 後端。
exllama_config (dict[str, Any], optional) — exllama 配置。您可以透過 version 鍵指定 exllama 核心的版本。如果未設定，預設為 {"version": 1}。
cache_block_outputs (bool, optional, defaults to True) — 是否快取塊輸出，以作為後續塊的輸入重用。
modules_in_block_to_quantize (list[list[str]], optional) — 在指定塊中要量化的模組名稱列表的列表。此引數可用於排除某些線性模組不被量化。要量化的塊可以透過設定 block_name_to_quantize 來指定。我們將按順序量化每個列表。如果未設定，將量化所有線性層。例如：modules_in_block_to_quantize =[["self_attn.k_proj", "self_attn.v_proj", "self_attn.q_proj"], ["self_attn.o_proj"]]。在此示例中，我們將首先同時量化 q、k、v 層，因為它們是獨立的。然後，在 q、k、v 層被量化後，我們將量化 self_attn.o_proj 層。這樣，我們將獲得更好的結果，因為它反映了模型量化後 self_attn.o_proj 將獲得的真實輸入。

這是一個包裝類，包含了在使用 `optimum` API 載入模型時，所有可以用於 gptq 量化（依賴於 auto_gptq 後端）的屬性和功能。

from_dict_optimum

< 原始碼 >

( config_dict )

從 optimum gptq 配置字典獲取相容的類

post_init

< 原始碼 >

( )

檢查引數是否正確的安全檢查器

to_dict_optimum

< 原始碼 >

( )

獲取與 optimum gptq 配置相容的字典

BitsAndBytesConfig

class transformers.BitsAndBytesConfig

< 原始碼 >

( load_in_8bit = False load_in_4bit = False llm_int8_threshold = 6.0 llm_int8_skip_modules = None llm_int8_enable_fp32_cpu_offload = False llm_int8_has_fp16_weight = False bnb_4bit_compute_dtype = None bnb_4bit_quant_type = 'fp4' bnb_4bit_use_double_quant = False bnb_4bit_quant_storage = None **kwargs )

引數

load_in_8bit (bool, optional, defaults to False) — 此標誌用於透過 LLM.int8() 啟用 8 位量化。
load_in_4bit (bool, optional, defaults to False) — 此標誌用於透過將 Linear 層替換為 bitsandbytes 中的 FP4/NF4 層來啟用 4 位量化。
llm_int8_threshold (float, optional, defaults to 6.0) — 這對應於論文 `LLM.int8() : 8-bit Matrix Multiplication for Transformers at Scale` 中描述的用於離群點檢測的離群點閾值：https://huggingface.co/papers/2208.07339。任何高於此閾值的隱藏狀態值都將被視為離群點，對這些值的操作將以 fp16 進行。值通常呈正態分佈，即大多數值在 [-3.5, 3.5] 範圍內，但對於大型模型，存在一些分佈非常不同的系統性離群點。這些離群點通常在 [-60, -6] 或 [6, 60] 區間內。Int8 量化對於幅度約為 5 的值效果很好，但超過這個範圍，效能會顯著下降。一個好的預設閾值是 6，但對於更不穩定的模型（小模型、微調），可能需要更低的閾值。
llm_int8_skip_modules (list[str], optional) — 一個明確的模組列表，我們不希望將其轉換為 8 位。這對於像 Jukebox 這樣在不同位置有多個頭的模型很有用，這些頭不一定在最後的位置。例如，對於 CausalLM 模型，最後的 lm_head 會保持其原始的 dtype。
llm_int8_enable_fp32_cpu_offload (bool, optional, defaults to False) — 此標誌用於高階用例和了解此功能的使用者。如果你想將模型分成不同的部分，一部分在 GPU 上以 int8 執行，另一部分在 CPU 上以 fp32 執行，你可以使用此標誌。這對於解除安裝大型模型如 google/flan-t5-xxl 很有用。請注意，int8 操作不會在 CPU 上執行。
llm_int8_has_fp16_weight (bool, optional, defaults to False) — 此標誌使用 16 位主權重執行 LLM.int8()。這對於微調很有用，因為權重在反向傳播時不必來回轉換。
bnb_4bit_compute_dtype (torch.dtype 或 str, optional, defaults to torch.float32) — 這設定了計算型別，可能與輸入型別不同。例如，輸入可能是 fp32，但計算可以設定為 bf16 以加速。
bnb_4bit_quant_type (str, optional, defaults to "fp4") — 這設定了 bnb.nn.Linear4Bit 層中的量化資料型別。選項是 FP4 和 NF4 資料型別，由 fp4 或 nf4 指定。
bnb_4bit_use_double_quant (bool, optional, defaults to False) — 此標誌用於巢狀量化，即第一次量化的量化常數再次被量化。
bnb_4bit_quant_storage (torch.dtype 或 str, optional, defaults to torch.uint8) — 這設定了用於打包量化後 4 位引數的儲存型別。
kwargs (dict[str, Any], optional) — 用於初始化配置物件的附加引數。

這是一個包裝類，包含了在使用 bitsandbytes 載入模型時，所有可以使用的屬性和功能。

這將替換 load_in_8bit 或 load_in_4bit，因此這兩個選項是互斥的。

目前僅支援 LLM.int8()、FP4 和 NF4 量化。如果 bitsandbytes 中增加了更多方法，則會向此類新增更多引數。

is_quantizable

< 原始碼 >

( )

如果模型可以量化，則返回 True，否則返回 False。

post_init

< 原始碼 >

( )

檢查引數是否正確的安全檢查器 - 同時會將一些 NoneType 引數替換為其預設值。

quantization_method

< 原始碼 >

( )

此方法返回模型使用的量化方法。如果模型不可量化，則返回 None。

to_diff_dict

< 原始碼 >

( ) → dict[str, Any]

dict[str, Any]

所有構成此配置例項的屬性的字典，

從配置中刪除所有與預設配置屬性對應的屬性，以提高可讀性，並序列化為 Python 字典。

HfQuantizer

class transformers.quantizers.HfQuantizer

< 原始碼 >

( quantization_config: QuantizationConfigMixin **kwargs )

HuggingFace 量化器的抽象類。目前支援對 HF transformers 模型進行推理和/或量化。此類僅用於 transformers.PreTrainedModel.from_pretrained，目前尚不能輕易在該方法範圍之外使用。

屬性 quantization_config (transformers.utils.quantization_config.QuantizationConfigMixin)：定義要量化的模型的量化引數的配置。 modules_to_not_convert (list[str], optional)：量化模型時不轉換的模組名稱列表。 required_packages (list[str], optional)：在使用量化器之前需要安裝的 pip 包列表。 requires_calibration (bool)：量化方法是否需要在模型使用前對其進行校準。 requires_parameters_quantization (bool)：量化方法是否需要建立新的引數。例如，對於 bitsandbytes，需要建立新的 xxxParameter 才能正確量化模型。

adjust_max_memory

< 原始碼 >

( max_memory: dict )

如果量化需要額外記憶體，則調整 infer_auto_device_map() 的 max_memory 引數

adjust_target_dtype

< 原始碼 >

( torch_dtype: torch.dtype )

引數

torch_dtype (torch.dtype, optional) — 用於計算 device_map 的 torch_dtype。

如果你想調整 from_pretrained 中用於計算 device_map 的 target_dtype 變數（當 device_map 是 str 時），請重寫此方法。例如，對於 bitsandbytes，我們強制將 target_dtype 設定為 torch.int8，對於 4 位量化，我們傳遞一個自定義列舉 accelerate.CustomDtype.int4。

check_quantized_param

< 原始碼 >

( model: PreTrainedModel param_value: torch.Tensor param_name: str state_dict: dict **kwargs )

檢查載入的 state_dict 元件是否是量化引數的一部分，並進行一些驗證；僅在 requires_parameters_quantization == True 的量化方法（需要為量化建立新引數）中定義。

create_quantized_param

< 原始碼 >

( *args **kwargs )

從 state_dict 中獲取所需元件並建立量化引數；僅當 requires_parameters_quantization == True 時適用。

Transformers

量化

QuantoConfig

class transformers.QuantoConfig

post_init

AqlmConfig

class transformers.AqlmConfig

post_init

VptqConfig

class transformers.VptqConfig

post_init

AwqConfig

class transformers.AwqConfig

post_init

EetqConfig

class transformers.EetqConfig

post_init

GPTQConfig

class transformers.GPTQConfig

from_dict_optimum

post_init

to_dict_optimum

BitsAndBytesConfig

class transformers.BitsAndBytesConfig

is_quantizable

post_init

quantization_method

to_diff_dict

HfQuantizer

class transformers.quantizers.HfQuantizer

adjust_max_memory

adjust_target_dtype

check_quantized_param

create_quantized_param

dequantize

get_cuda_warm_up_factor

get_special_dtypes_update

postprocess_model

preprocess_model

update_device_map

update_expected_keys

update_missing_keys

update_missing_keys_after_loading

update_torch_dtype

update_tp_plan

update_unexpected_keys

validate_environment

HiggsConfig

class transformers.HiggsConfig

post_init

HqqConfig

class transformers.HqqConfig

from_dict

post_init

to_diff_dict

FbgemmFp8Config

class transformers.FbgemmFp8Config

CompressedTensorsConfig

class transformers.CompressedTensorsConfig

from_dict

to_dict

to_diff_dict

TorchAoConfig

class transformers.TorchAoConfig

from_dict

get_apply_tensor_subclass

post_init

to_dict

BitNetQuantConfig

class transformers.BitNetQuantConfig

post_init

SpQRConfig

class transformers.SpQRConfig

post_init

FineGrainedFP8Config

class transformers.FineGrainedFP8Config

post_init

QuarkConfig

class transformers.QuarkConfig

AutoRoundConfig