LLM VRAM Sizing
LLM 显存估算(LLM VRAM Sizing)是根据参数量、权重精度和运行时额外开销,估算本地或自托管模型需要多少 GPU memory 的方法。
基础公式
GPU Memory Math for LLMs (2026 Edition) 给出的权重显存近似公式是:
VRAM (GB) ≈ Parameters (billions) × (effective bits per weight ÷ 8)
典型直觉:
- FP16 / BF16:约 2 GB per 1B parameters。
- FP8 / INT8:约 1 GB per 1B parameters。
- 4-bit quantization:约 0.5 GB per 1B parameters。
- GGUF Q_K variants 介于 2-bit 到 6-bit 之间,实际数字依赖具体 scheme 和 runtime。
额外显存税
权重只是显存预算的一部分。实际运行还需要:
- KV-Cache:随 context length、batch size 和 concurrency 增长。
- Activations:依赖 runtime、execution path 和优化程度。
- Batching / concurrency:多请求会快速放大内存使用。
- Framework overhead:Transformers、vLLM、TensorRT-LLM、llama.cpp 等 runtime 的保留内存不同。
- CUDA Graphs:用额外 reserved memory 换取更稳定的延迟和吞吐。
经验上,安全运行常需要在权重估算之外增加 10-30% VRAM,长上下文、agent workload 和高并发会需要更多。
MoE 的特殊性
Mixture-of-Experts(MoE)模型需要同时看 total parameters 和 active parameters。Total parameters 决定模型加载的内存 footprint,active parameters 更直接影响每个 token 的计算速度。