Model Quantization
模型量化(Model Quantization)是用更低精度的数字格式存储模型权重的优化技术。现代模型常以 16-bit floating-point 训练,量化会把部分权重压缩到 8-bit 或 4-bit 表示,以减少显存占用和数据移动。
对推理阶段的影响
量化同时影响 prefill 和 decode:
- prefill 受益于现代 GPU 上更快的低精度数学运算。
- decode 受益于更小的权重体积,因为每次前向传播需要从内存读取的数据更少。
A Guide to AI Inference Engineering 提到,典型降精度步骤大约能带来 30% 到 50% 的性能提升,具体收益取决于模型和量化方法。
质量风险
模型不同部分对量化误差的敏感度不同。线性权重通常更容易量化,activation 更敏感,KV-Cache 更敏感,attention layers 最敏感。注意力层中的小误差会沿词元序列累积,长响应中可能放大成可见的质量下降。
生产系统通常会保留 attention 的较高精度,再对其他部分做更激进的压缩。
本地推理格式
GPU Memory Math for LLMs (2026 Edition) 将量化直接转成 LLM VRAM Sizing:FP16 / BF16 约 2 GB per 1B parameters,FP8 / INT8 约 1 GB per 1B parameters,4-bit quantization 约 0.5 GB per 1B parameters。
GGUF、EXL2、EXL3、AWQ、GPTQ、FP8、FP4、MLX formats 和 ONNX 的可移植性不同。Inference Engines for LLMs & Local AI Hardware (2026 Edition) 强调,正确量化格式取决于目标 推理引擎 是否有 optimized kernels,而不是文件本身看起来有多小。