自部署不是"省钱万能解"。三大主流引擎在 2026 年 6 月各自更新:vLLM v0.23 优化了 DeepSeek-V4 路径,SGLang 0.5.13 把多轮对话吞吐拉到新高,TensorRT-LLM 在 Blackwell 上把 FP8 推到了天花板。哪一款适合你?这篇做一次企业级横评。
一、引言:为什么 2026 中开始大量企业从 API 转向自部署
13 号文(《GLM-5.2 三通道实测》)和 14 号文(《2026.6 旗舰大模型四强横评》)解决的是"通过哪个云通道接入旗舰模型"的问题。但 2026 年 5 月开始,一个反向趋势在企业里加速:
- API 价格被旗舰模型抬高:Claude Fable 5 输出 $50/M,单月 10 亿 tokens 就是 $5 万。
- DeepSeek-V4、Qwen3-Max、GLM-5.2 等开源旗舰模型质量已经能撑住 80% 业务流场景:自部署的"产能瓶颈"被打开。
- GB200 / B200 / H200 算力供给改善:spot 实例 $2/hr 起,CPM(cost per million tokens)跌到 $0.15。
按 GPU.NET 2026.06 实测 的数据:
| 硬件 + 引擎 | 实例价 | 吞吐(70B 级) | CPM |
|---|---|---|---|
| H100 SXM + vLLM(17B 级) | $2.90/hr | 4,200 tok/s | $0.19 |
| H100 SXM + vLLM(70B FP8) | $2.90/hr | 1,500-2,500 tok/s | $0.32-0.54 |
| B200 spot + vLLM | $2.12/hr | 同档高 | $0.15 |
| H200 SXM + 长上下文 | $2.60/hr | 比 H100 高 1.83-2.14× | $0.70 |
而 GLM-5.2 官方 API 价格 $0.6 + $2.0/M(输入 + 输出)——单从 token 单价看 API 仍然便宜,但企业一旦考虑:
- 峰值并发 SLA 自主可控(不被 API 配额掐脖子);
- 数据完全不出域(合规、医疗、金融、政务硬要求);
- 场景化定制 LoRA / 微调(API 通道不支持);
- 总规模 > 300M tokens / 月(拐点之后自部署更便宜);
自部署就成了"被迫选项"。问题在于:vLLM、SGLang、TensorRT-LLM 三家主流引擎在 2026 年 6 月的能力差距,已经从"框架选型"变成了"百万级成本差"。这篇做一次完整横评。
二、三引擎技术架构对比
三家走的是三条不同技术路线,理解架构就理解了性能差异从哪来。
2.1 vLLM:通用王者,PagedAttention 起家
- 核心技术:PagedAttention(请求级 KV cache 分页)+ Continuous Batching(动态批处理)。
- 2026.06 v0.23 更新点:DeepSeek-V4 1.6T MoE 路径优化、模型运行器 V2、Rust 前端、TransformerEngine v5 集成。
- 生态优势:硬件支持广(NVIDIA / AMD / TPU / Trainium / Gaudi)、社区最大、Day 0 模型支持最快。
- 设计哲学:通用性优先——单一抽象覆盖所有主流硬件,不为某一家硬件极致优化。
2.2 SGLang:Agent 时代新贵,RadixAttention 是杀手锏
- 核心技术:RadixAttention(基于 radix tree 的跨请求 KV cache 复用)+ 零开销重叠调度(CPU/GPU 并行)+ 原生压缩 FSM(结构化输出)。
- 2026.06 0.5.13 更新点:routing 预判、稀疏缓存、多轮对话场景吞吐 +65%,p99 延迟 -43%(数据来源:MindLynx 实测)。
- 生态优势:在长共享前缀场景(多轮对话、Agent、RAG with system prompt)有断层优势。
- 设计哲学:为 LLM 程序优化——把 Agent / 多轮 / 结构化输出作为一等公民,不是把它们当 vLLM 的"特殊用例"。
2.3 TensorRT-LLM:极致性能,硬件原生编译
- 核心技术:AOT 编译 + 算子融合 + FP8/FP4 极致量化 + CUDA Graph。
- 2026 Blackwell 更新点:B200 单卡 DeepSeek-R1(FP4)达 5,393 tok/s,相比 H100 提升 276%(数据来源:CSDN Blackwell 实测)。
- 生态优势:NVIDIA 硬件原生集成,FP8 / FP4 量化最深。
- 设计哲学:牺牲灵活性换极致性能——绑定 CUDA / Hopper / Blackwell,编译时间换运行时性能。
2.4 一张图看懂三者定位
通用性 + Day 0 模型支持 ────────────── vLLM
↓
长前缀复用 + Agent 优化 ────────────── SGLang
↓
NVIDIA 硬件极致性能 ────────────── TensorRT-LLM
三、性能横评:四场景 × 三引擎
测试基线(与社区主流 benchmark 对齐):8×H200 SXM(141GB HBM3e/GPU),Llama-3.3-70B(4-bit GPTQ),混合工作负载。数据综合自 掘金 vLLM/SGLang/TRT-LLM 横评 与 aiwiki.ai/vllm。
3.1 吞吐量(tokens/s,越高越好)
| 工作负载 | vLLM v0.23 | SGLang 0.5.13 | TensorRT-LLM |
|---|---|---|---|
| Chat(32 并发) | 4,250 | 4,880 | 5,210 |
| RAG(16 并发,4K 上下文) | 2,200 | 2,310 | 2,480 |
| 批量摘要(16 请求) | 5,100 | 5,300 | 5,450 |
| 多轮对话(5 轮,前缀共享) | 3,200 | 8,100 | 4,800 |
核心解读:
- TensorRT-LLM 在"独立请求"场景里有约 5%-22% 的吞吐优势,但场景越简单优势越明显,场景越复杂优势越缩小。
- SGLang 在"共享前缀"场景里有断层优势——多轮对话从 vLLM 的 3200 tok/s 跳到 8100 tok/s,2.5 倍。这是 RadixAttention 的核心红利。
- vLLM 综合表现"中庸":但生态、硬件覆盖、上手速度无人能敌。
3.2 延迟(512 token prompt)
| 引擎 | p50 TTFT | p99 TTFT | p50 TPOT | p99 TPOT |
|---|---|---|---|---|
| TensorRT-LLM | 75ms | 118ms | 7.6ms | 12.4ms |
| SGLang 0.5.13 | 79ms | 135ms | 7.9ms | 14.8ms |
| vLLM v0.23 | 88ms | 155ms | 8.5ms | 18.2ms |
核心解读:TTFT 维度 TRT-LLM 最优,但和 SGLang 差距已经压到 5%。真正的延迟差距出现在 p99——TRT-LLM 的尾延迟比 vLLM 低约 24%,这是企业 SLA 的关键指标。
3.3 显存占用(70B FP8 / 4-bit)
| 模型精度 | 显存 | 所需 GPU |
|---|---|---|
| Llama-3.3-70B BF16 | ~140GB | 8×H100(80GB) |
| Llama-3.3-70B FP8 | ~70GB | 4×H100 |

80

被折叠的 条评论
为什么被折叠?



