Model Quantization

Model Quantization

模型量化(Model Quantization)是用更低精度的数字格式存储模型权重的优化技术。现代模型常以 16-bit floating-point 训练,量化会把部分权重压缩到 8-bit 或 4-bit 表示,以减少显存占用和数据移动。

对推理阶段的影响

量化同时影响 prefill 和 decode

  • prefill 受益于现代 GPU 上更快的低精度数学运算。
  • decode 受益于更小的权重体积,因为每次前向传播需要从内存读取的数据更少。

A Guide to AI Inference Engineering 提到,典型降精度步骤大约能带来 30% 到 50% 的性能提升,具体收益取决于模型和量化方法。

质量风险

模型不同部分对量化误差的敏感度不同。线性权重通常更容易量化,activation 更敏感,KV-Cache 更敏感,attention layers 最敏感。注意力层中的小误差会沿词元序列累积,长响应中可能放大成可见的质量下降。

生产系统通常会保留 attention 的较高精度,再对其他部分做更激进的压缩。

本地推理格式

GPU Memory Math for LLMs (2026 Edition) 将量化直接转成 LLM VRAM Sizing:FP16 / BF16 约 2 GB per 1B parameters,FP8 / INT8 约 1 GB per 1B parameters,4-bit quantization 约 0.5 GB per 1B parameters。

GGUF、EXL2、EXL3、AWQ、GPTQ、FP8、FP4、MLX formats 和 ONNX 的可移植性不同。Inference Engines for LLMs & Local AI Hardware (2026 Edition) 强调,正确量化格式取决于目标 推理引擎 是否有 optimized kernels,而不是文件本身看起来有多小。

相关概念