AI Inference Engineering

AI Inference Engineering

AI 推理工程(AI Inference Engineering)是在生产环境中高效运行已训练 AI 模型的工程实践。它覆盖底层 GPU 代码、模型服务框架和云基础设施,目标是在延迟、吞吐量、成本和质量之间做产品化取舍。

核心问题

LLM 推理的结构性约束来自 prefill 和 decode 的物理差异:

  • prefill 一次性处理完整输入提示,受 GPU 算力限制,核心指标是首次词元时间(Time to First Token, TTFT)。
  • decode 逐个生成后续词元,受内存带宽限制,核心指标是每秒词元数(Tokens Per Second, TPS)。

推理工程的大部分优化都围绕这个拆分展开:让 prefill 更快、让 decode 更快,或者重新组织系统让两者独立扩展。

主要技术

本地硬件与推理引擎

Self-hosted LLMs Local AI Hardware 系列把推理工程落到本地硬件和引擎选择上。它补充了三个问题:

  • LLM VRAM Sizing:模型权重显存可用参数量和 effective bits per weight 估算,但还要加上 KV cache、activations、batching 和 runtime overhead。
  • Memory Bandwidth for LLM Inference:decode 阶段主要受带宽限制,capacity 只说明模型是否装得下。
  • LLM Inference Engines:推理引擎选择应跟随硬件策略、workload shape、serving model、量化格式、interconnect 和生产成熟度。

投资时机

早期 AI 产品通常优先使用成熟 API 来换取迭代速度。自托管开放模型和自建推理栈更适合约束已经清晰的阶段:API 成本成为显著支出、交互延迟成为产品核心体验、可靠性要求超过供应商 SLA。

A Guide to AI Inference EngineeringCursor Composer 2.0 作为代表案例:代码补全的亚秒级延迟就是产品体验本身,因此开放模型加推理工程投入能直接服务产品约束。

相关概念