vLLM v0.23 vs SGLang vs TensorRT-LLM 三引擎企业自部署实测:吞吐 / 延迟 / 成本 / Agent 适配

自部署不是"省钱万能解"。三大主流引擎在 2026 年 6 月各自更新:vLLM v0.23 优化了 DeepSeek-V4 路径,SGLang 0.5.13 把多轮对话吞吐拉到新高,TensorRT-LLM 在 Blackwell 上把 FP8 推到了天花板。哪一款适合你?这篇做一次企业级横评。

一、引言:为什么 2026 中开始大量企业从 API 转向自部署

13 号文(《GLM-5.2 三通道实测》)和 14 号文(《2026.6 旗舰大模型四强横评》)解决的是"通过哪个云通道接入旗舰模型"的问题。但 2026 年 5 月开始,一个反向趋势在企业里加速:

  • API 价格被旗舰模型抬高:Claude Fable 5 输出 $50/M,单月 10 亿 tokens 就是 $5 万。
  • DeepSeek-V4、Qwen3-Max、GLM-5.2 等开源旗舰模型质量已经能撑住 80% 业务流场景:自部署的"产能瓶颈"被打开。
  • GB200 / B200 / H200 算力供给改善:spot 实例 $2/hr 起,CPM(cost per million tokens)跌到 $0.15。

GPU.NET 2026.06 实测 的数据:

硬件 + 引擎 实例价 吞吐(70B 级) CPM
H100 SXM + vLLM(17B 级) $2.90/hr 4,200 tok/s $0.19
H100 SXM + vLLM(70B FP8) $2.90/hr 1,500-2,500 tok/s $0.32-0.54
B200 spot + vLLM $2.12/hr 同档高 $0.15
H200 SXM + 长上下文 $2.60/hr 比 H100 高 1.83-2.14× $0.70

而 GLM-5.2 官方 API 价格 $0.6 + $2.0/M(输入 + 输出)——单从 token 单价看 API 仍然便宜,但企业一旦考虑:

  1. 峰值并发 SLA 自主可控(不被 API 配额掐脖子);
  2. 数据完全不出域(合规、医疗、金融、政务硬要求);
  3. 场景化定制 LoRA / 微调(API 通道不支持);
  4. 总规模 > 300M tokens / 月(拐点之后自部署更便宜);

自部署就成了"被迫选项"。问题在于:vLLM、SGLang、TensorRT-LLM 三家主流引擎在 2026 年 6 月的能力差距,已经从"框架选型"变成了"百万级成本差"。这篇做一次完整横评。

二、三引擎技术架构对比

三家走的是三条不同技术路线,理解架构就理解了性能差异从哪来。

2.1 vLLM:通用王者,PagedAttention 起家

  • 核心技术:PagedAttention(请求级 KV cache 分页)+ Continuous Batching(动态批处理)。
  • 2026.06 v0.23 更新点:DeepSeek-V4 1.6T MoE 路径优化、模型运行器 V2、Rust 前端、TransformerEngine v5 集成。
  • 生态优势:硬件支持广(NVIDIA / AMD / TPU / Trainium / Gaudi)、社区最大、Day 0 模型支持最快。
  • 设计哲学通用性优先——单一抽象覆盖所有主流硬件,不为某一家硬件极致优化。

2.2 SGLang:Agent 时代新贵,RadixAttention 是杀手锏

  • 核心技术:RadixAttention(基于 radix tree 的跨请求 KV cache 复用)+ 零开销重叠调度(CPU/GPU 并行)+ 原生压缩 FSM(结构化输出)。
  • 2026.06 0.5.13 更新点:routing 预判、稀疏缓存、多轮对话场景吞吐 +65%,p99 延迟 -43%(数据来源:MindLynx 实测)。
  • 生态优势:在长共享前缀场景(多轮对话、Agent、RAG with system prompt)有断层优势。
  • 设计哲学为 LLM 程序优化——把 Agent / 多轮 / 结构化输出作为一等公民,不是把它们当 vLLM 的"特殊用例"。

2.3 TensorRT-LLM:极致性能,硬件原生编译

  • 核心技术:AOT 编译 + 算子融合 + FP8/FP4 极致量化 + CUDA Graph。
  • 2026 Blackwell 更新点:B200 单卡 DeepSeek-R1(FP4)达 5,393 tok/s,相比 H100 提升 276%(数据来源:CSDN Blackwell 实测)。
  • 生态优势:NVIDIA 硬件原生集成,FP8 / FP4 量化最深。
  • 设计哲学牺牲灵活性换极致性能——绑定 CUDA / Hopper / Blackwell,编译时间换运行时性能。

2.4 一张图看懂三者定位

通用性 + Day 0 模型支持 ──────────────  vLLM
                                          ↓
长前缀复用 + Agent 优化  ──────────────  SGLang
                                          ↓
NVIDIA 硬件极致性能      ──────────────  TensorRT-LLM

三、性能横评:四场景 × 三引擎

测试基线(与社区主流 benchmark 对齐):8×H200 SXM(141GB HBM3e/GPU),Llama-3.3-70B(4-bit GPTQ),混合工作负载。数据综合自 掘金 vLLM/SGLang/TRT-LLM 横评aiwiki.ai/vllm

3.1 吞吐量(tokens/s,越高越好)

工作负载 vLLM v0.23 SGLang 0.5.13 TensorRT-LLM
Chat(32 并发) 4,250 4,880 5,210
RAG(16 并发,4K 上下文) 2,200 2,310 2,480
批量摘要(16 请求) 5,100 5,300 5,450
多轮对话(5 轮,前缀共享) 3,200 8,100 4,800

核心解读

  • TensorRT-LLM 在"独立请求"场景里有约 5%-22% 的吞吐优势,但场景越简单优势越明显,场景越复杂优势越缩小。
  • SGLang 在"共享前缀"场景里有断层优势——多轮对话从 vLLM 的 3200 tok/s 跳到 8100 tok/s,2.5 倍。这是 RadixAttention 的核心红利。
  • vLLM 综合表现"中庸":但生态、硬件覆盖、上手速度无人能敌。

3.2 延迟(512 token prompt)

引擎 p50 TTFT p99 TTFT p50 TPOT p99 TPOT
TensorRT-LLM 75ms 118ms 7.6ms 12.4ms
SGLang 0.5.13 79ms 135ms 7.9ms 14.8ms
vLLM v0.23 88ms 155ms 8.5ms 18.2ms

核心解读:TTFT 维度 TRT-LLM 最优,但和 SGLang 差距已经压到 5%。真正的延迟差距出现在 p99——TRT-LLM 的尾延迟比 vLLM 低约 24%,这是企业 SLA 的关键指标。

3.3 显存占用(70B FP8 / 4-bit)

模型精度 显存 所需 GPU
Llama-3.3-70B BF16 ~140GB 8×H100(80GB)
Llama-3.3-70B FP8 ~70GB 4×H100
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值