精彩回顾
vLLM Beijing Meetup
vLLM项目简介及最新进展
vLLM核心维护者游凯超系统梳理了vLLM项目的成长脉络,重点介绍了vLLM的核心技术以及最新进展。他展示了vLLM在大规模分布式推理,多模态支持、更精细调度策略和扩展性上的突破,并描绘了未来在极致性能优化、更广泛硬件支持及生态工具链上的蓝图,奠定了整场活动的技术基调。
vLLM Core Maintainer 游凯超
vLLM PD分离在腾讯推理框架的实践与探索
来自腾讯的专家工程师张超分享了基于vLLM深度定制的PD(Prefill-Decode)分离框架。该方案通过解耦计算关键路径显著提升推理效率,已在腾讯多业务场景规模化落地,为高并发大模型服务提供可复用的企业级推理框架。
腾讯专家工程师 张超
vLLM Ascend:
昇腾在大规模分布式推理及
强化学习场景的实践
来自vLLM Ascend项目团队的专家王玺源、温捷带来了vLLM在昇腾AI硬件平台上的深度实践。他们首先介绍了vLLM Ascend近几个月的项目成果,从功能支持、版本发布,到软件质量、推理性能,各个方面都带来了极大的改进和提升。然后分享了如何利用昇腾芯片的特性,以DeepSeek 大EP场景为例,优化vLLM在大规模分布式推理场景下的性能。基于vLLM优异的跨硬件平台适配能力,vLLM Ascend为昇腾大模型部署提供了高效方案。
vLLM Ascend Maintainer 王玺源
华为软件工程师 温捷
十倍性能提升之旅:
DeepSeek推理优化关键路径
来自蚂蚁集团infra团队工程师陈文岗、郑守建深度阐述了DeepSeek模型推理优化关键路径,实现10倍性能提升。演讲层层拆解,从显存优化策略到延迟降低技巧,从单机混部实践到PD分离架构的应用,为社区提供了极具参考价值的性能调优实战手册。
蚂蚁集团infra工程师 陈文岗
蚂蚁集团infra工程师 郑守建
AIBrix v0.4.0前瞻:
更加高效且经济的大规模推理控制面
来自字节跳动的GPU Infra工程师谭健楠基于字节跳动海量线上业务负载的实践,深入解析了如何使用AIBrix攻克规模化大模型推理在效率与成本平衡上的核心挑战。他重点展示了AIBrix与vLLM高性能推理引擎的深度协同,在提升推理效率的同时大幅降低了资源成本,为行业提供了高效部署大模型服务的创新实践路径。
字节跳动GPU Infra组研发工程师谭健楠
Kimi K2 训推最佳实践
来自月之暗面的何蔚然分享了 Kimi K2 模型在严苛 SLO 要求下,兼顾线上高并发推理与强化学习(RL)训练需求的实战经验,重点介绍了针对不同硬件资源与负载限制进行优化的训推协同架构与关键部署策略。
月之暗面推理负责人 何蔚然
vLLM上基于点对点NCCL实现的原生PD分离
来自小米的AI Infra工程师邓中华深入分享了基于点对点NCCL通信实现的原生PD分离方案,深度解析该架构在vLLM中的设计原理与核心突破。通过实际部署案例,详细阐述其带来的显著效果,为vLLM开源生态协同提供重要的参考价值。
小米集团AI Infra工程师 邓中华
随着核心功能的持续增强、硬件生态的不断扩展以及控制面和部署方案的日益成熟,vLLM正成为驱动大模型真正落地、赋能千行百业的坚实基座。期待下一次相聚,见证vLLM生态更加璀璨的绽放!
相关链接:
[1] 直播回放链接:https://www.chaspark.com/#/live/1166916873711665152
也可通过关注【腾讯太极机器学习平台视频号】获取本次回放
[2] 直播演讲材料: https://drive.google.com/drive/folders/1Pid6NSFLU43DZRi0EaTcPgXsAzDvbBqF