A Guide to AI Inference Engineering

A Guide to AI Inference Engineering

这篇文章是 ByteByteGo 对 AI 推理工程(AI Inference Engineering)的系统介绍。它把 LLM 推理拆成 prefill 和 decode 两个阶段,再用这个拆分解释生产系统为什么要分别优化 TTFT、TPS、成本和可靠性。

源文见:A Guide to AI Inference Engineering

核心贡献

  • 将 prefill 归纳为计算受限(compute-bound)的阶段,用首次词元时间(Time to First Token, TTFT)衡量。
  • 将 decode 归纳为内存带宽受限(memory-bandwidth-bound)的阶段,用每秒词元数(Tokens Per Second, TPS)衡量。
  • 解释开放模型(open models)和自托管如何把推理工程从前沿实验室扩散到普通产品团队。
  • 梳理六类推理优化技术:Inference BatchingPrefix CachingModel QuantizationSpeculative DecodingModel Parallelism for InferenceDisaggregated Inference Serving
  • 给出自建推理栈的投资信号:API 成本成为重要支出、延迟要求超过封闭 API 能力、可靠性要求高于供应商 SLA。

在当前 wiki 中的位置

这篇文章补齐了 TransformerAttention MechanismKV-Cache 与生产模型服务之间的工程链路。它关注训练完成之后的运行阶段,也让 Context Engineering 中的提示结构、缓存命中率和成本问题有了更底层的服务侧解释。

关联页面