vLLM v0.23 vs SGLang vs TensorRT-LLM 三引擎企业自部署实测：吞吐 / 延迟 / 成本 / Agent 适配

原创

已于 2026-06-19 22:19:56 修改 · 282 阅读

标签

于 2026-06-19 22:06:30 首次发布

自部署不是"省钱万能解"。三大主流引擎在 2026 年 6 月各自更新：vLLM v0.23 优化了 DeepSeek-V4 路径，SGLang 0.5.13 把多轮对话吞吐拉到新高，TensorRT-LLM 在 Blackwell 上把 FP8 推到了天花板。哪一款适合你？这篇做一次企业级横评。

一、引言：为什么 2026 中开始大量企业从 API 转向自部署

13 号文（《GLM-5.2 三通道实测》）和 14 号文（《2026.6 旗舰大模型四强横评》）解决的是"通过哪个云通道接入旗舰模型"的问题。但 2026 年 5 月开始，一个反向趋势在企业里加速：

API 价格被旗舰模型抬高：Claude Fable 5 输出 $50/M，单月 10 亿 tokens 就是 $5 万。
DeepSeek-V4、Qwen3-Max、GLM-5.2 等开源旗舰模型质量已经能撑住 80% 业务流场景：自部署的"产能瓶颈"被打开。
GB200 / B200 / H200 算力供给改善：spot 实例 $2/hr 起，CPM（cost per million tokens）跌到 $0.15。

按 GPU.NET 2026.06 实测的数据：

硬件 + 引擎	实例价	吞吐（70B 级）	CPM
H100 SXM + vLLM（17B 级）	$2.90/hr	4,200 tok/s	$0.19
H100 SXM + vLLM（70B FP8）	$2.90/hr	1,500-2,500 tok/s	$0.32-0.54
B200 spot + vLLM	$2.12/hr	同档高	$0.15
H200 SXM + 长上下文	$2.60/hr	比 H100 高 1.83-2.14×	$0.70

而 GLM-5.2 官方 API 价格 $0.6 + $2.0/M（输入 + 输出）——单从 token 单价看 API 仍然便宜，但企业一旦考虑：

峰值并发 SLA 自主可控（不被 API 配额掐脖子）；
数据完全不出域（合规、医疗、金融、政务硬要求）；
场景化定制 LoRA / 微调（API 通道不支持）；
总规模 > 300M tokens / 月（拐点之后自部署更便宜）；

自部署就成了"被迫选项"。问题在于：vLLM、SGLang、TensorRT-LLM 三家主流引擎在 2026 年 6 月的能力差距，已经从"框架选型"变成了"百万级成本差"。这篇做一次完整横评。

二、三引擎技术架构对比

三家走的是三条不同技术路线，理解架构就理解了性能差异从哪来。

2.1 vLLM：通用王者，PagedAttention 起家

核心技术：PagedAttention（请求级 KV cache 分页）+ Continuous Batching（动态批处理）。
2026.06 v0.23 更新点：DeepSeek-V4 1.6T MoE 路径优化、模型运行器 V2、Rust 前端、TransformerEngine v5 集成。
生态优势：硬件支持广（NVIDIA / AMD / TPU / Trainium / Gaudi）、社区最大、Day 0 模型支持最快。
设计哲学：通用性优先——单一抽象覆盖所有主流硬件，不为某一家硬件极致优化。

2.2 SGLang：Agent 时代新贵，RadixAttention 是杀手锏

核心技术：RadixAttention（基于 radix tree 的跨请求 KV cache 复用）+ 零开销重叠调度（CPU/GPU 并行）+ 原生压缩 FSM（结构化输出）。
2026.06 0.5.13 更新点：routing 预判、稀疏缓存、多轮对话场景吞吐 +65%，p99 延迟 -43%（数据来源：MindLynx 实测）。
生态优势：在长共享前缀场景（多轮对话、Agent、RAG with system prompt）有断层优势。
设计哲学：为 LLM 程序优化——把 Agent / 多轮 / 结构化输出作为一等公民，不是把它们当 vLLM 的"特殊用例"。

2.3 TensorRT-LLM：极致性能，硬件原生编译

核心技术：AOT 编译 + 算子融合 + FP8/FP4 极致量化 + CUDA Graph。
2026 Blackwell 更新点：B200 单卡 DeepSeek-R1（FP4）达 5,393 tok/s，相比 H100 提升 276%（数据来源：CSDN Blackwell 实测）。
生态优势：NVIDIA 硬件原生集成，FP8 / FP4 量化最深。
设计哲学：牺牲灵活性换极致性能——绑定 CUDA / Hopper / Blackwell，编译时间换运行时性能。

2.4 一张图看懂三者定位

通用性 + Day 0 模型支持 ──────────────  vLLM
                                          ↓
长前缀复用 + Agent 优化  ──────────────  SGLang
                                          ↓
NVIDIA 硬件极致性能      ──────────────  TensorRT-LLM

三、性能横评：四场景 × 三引擎

测试基线（与社区主流 benchmark 对齐）：8×H200 SXM（141GB HBM3e/GPU），Llama-3.3-70B（4-bit GPTQ），混合工作负载。数据综合自掘金 vLLM/SGLang/TRT-LLM 横评与 aiwiki.ai/vllm。

3.1 吞吐量（tokens/s，越高越好）

工作负载	vLLM v0.23	SGLang 0.5.13	TensorRT-LLM
Chat（32 并发）	4,250	4,880	5,210
RAG（16 并发，4K 上下文）	2,200	2,310	2,480
批量摘要（16 请求）	5,100	5,300	5,450
多轮对话（5 轮，前缀共享）	3,200	8,100	4,800

核心解读：

TensorRT-LLM 在"独立请求"场景里有约 5%-22% 的吞吐优势，但场景越简单优势越明显，场景越复杂优势越缩小。
SGLang 在"共享前缀"场景里有断层优势——多轮对话从 vLLM 的 3200 tok/s 跳到 8100 tok/s，2.5 倍。这是 RadixAttention 的核心红利。
vLLM 综合表现"中庸"：但生态、硬件覆盖、上手速度无人能敌。