LLM Inference Engines

LLM 推理引擎（LLM Inference Engines）是把模型权重、硬件、量化格式、KV cache、调度、API 和并行策略组织成可运行推理服务的软件层。

它负责什么

Inference Engines for LLMs & Local AI Hardware (2026 Edition) 将推理引擎描述为 traffic cop、memory manager、kernel dispatcher、scheduler、cache accountant、parallelism planner、API surface 和 deployment framework。

严肃推理引擎通常负责：

Portable local runtimes：llama.cpp、MLC LLM、ONNX Runtime GenAI、OpenVINO。目标是让模型在各种硬件上跑起来。
Apple / unified-memory runtimes：MLX、MLX-LM。目标是用好 Apple Silicon 的统一内存和 Mac-first workflow。
Consumer CUDA quant engines：ExLlamaV2、ExLlamaV3。目标是在消费级 NVIDIA GPU 上高效运行低 bit 权重。
Production serving engines：vLLM、SGLang、TensorRT-LLM、TGI、LMDeploy。目标是服务并发用户、长上下文、MoE、观测、成本和 SLA。
Orchestration layers：NVIDIA Dynamo 等位于引擎之上，处理 routing、prefill/decode disaggregation、KV-aware routing 和 autoscaling。

不要先选引擎。先回答硬件、模型是否装进 fast memory、prefill / decode 瓶颈、context length、concurrency、模型架构、量化格式、interconnect 和运维目标。

本地便利、生产服务和 fleet orchestration 是三类不同需求。llama.cpp、MLX、ExLlama、vLLM、SGLang、TensorRT-LLM 和 Dynamo 的边界主要由这些需求决定。