LLM VRAM Sizing

LLM VRAM Sizing

LLM 显存估算（LLM VRAM Sizing）是根据参数量、权重精度和运行时额外开销，估算本地或自托管模型需要多少 GPU memory 的方法。

基础公式

GPU Memory Math for LLMs (2026 Edition) 给出的权重显存近似公式是：

VRAM (GB) ≈ Parameters (billions) × (effective bits per weight ÷ 8)

典型直觉：

FP16 / BF16：约 2 GB per 1B parameters。
FP8 / INT8：约 1 GB per 1B parameters。
4-bit quantization：约 0.5 GB per 1B parameters。
GGUF Q_K variants 介于 2-bit 到 6-bit 之间，实际数字依赖具体 scheme 和 runtime。

额外显存税

权重只是显存预算的一部分。实际运行还需要：

KV-Cache：随 context length、batch size 和 concurrency 增长。
Activations：依赖 runtime、execution path 和优化程度。
Batching / concurrency：多请求会快速放大内存使用。
Framework overhead：Transformers、vLLM、TensorRT-LLM、llama.cpp 等 runtime 的保留内存不同。
CUDA Graphs：用额外 reserved memory 换取更稳定的延迟和吞吐。

经验上，安全运行常需要在权重估算之外增加 10-30% VRAM，长上下文、agent workload 和高并发会需要更多。

MoE 的特殊性

Mixture-of-Experts（MoE）模型需要同时看 total parameters 和 active parameters。Total parameters 决定模型加载的内存 footprint，active parameters 更直接影响每个 token 的计算速度。

相关概念

Backlinks

References

GPU Memory Math for LLMs (2026 Edition)