阿里云基础网络技术5篇论文入选全球网络顶会NSDI

简介: 阿里云在NSDI 2025会议上发表5篇主会论文,涵盖大模型训练网络故障诊断、仿真、性能优化及CDN流控算法等领域。其中,《Evolution of Aegis》提出两阶段演进路线,显著降低故障诊断时间;《SimAI》实现高精度大模型训练模拟;其他论文分别在CDN拥塞控制、GPU解耦推理和容器网络性能优化上取得突破。这些成果为AI大模型时代的云计算基础设施发展提供了重要支持。NSDI是计算机网络与系统研究领域的顶级会议,本次录取率仅12.5%。

近日,在全球顶级网络系统会议 NSDI 2025 上,阿里云基础网络技术 5 篇论文被主会录用,论文研究成果涵盖多个领域,包括面向大模型训练的网络故障诊断、大模型训练网络仿真、容器网络性能问题诊断、基于 AI 推理的 CDN 流控算法智能选择,以及 GPU 解耦型推理场景的性能优化等五个重要领域。

在此次入选的文章中,阿里云主创论文《 Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production 》总结了近一年多以来阿里云在支持大模型训练过程中的实践与经验。


在研究中,阿里云网络、灵骏、PAI 等技术共同打造了端 + 网 + 任务协同的系统性智算网络诊断体系,将网络故障诊断耗时降低 97%,顺利支持通义千问完成了多次模型版本的训练发布。


传统的云计算诊断系统是针对通用计算场景设计的,在大模型场景下并不完全适用。由于大模型训练存在很多独特的执行特性,如大范围的集合通信等,会导致诸多经典诊断手段误报,无法精准完成问题定位。虽然头部大模型公司有针对大模型训练场景专门设计的故障诊断系统,但相对来说,方案对于提供公共云服务的解决方案来说有所局限。

Aegis与已有诊断系统对比与演进

因此,在论文研究中,Aegis 选择了一条增强已有体系+训练过程感知的两阶段演进路线。在增强已有体系阶段( Phase-1 ),Aegis 将大量人工定位问题的经验进行梳理总结,形成了一套在线日志分析 + 定点隔离诊断的问题定位体系,帮助降低了 71% 的任务中断问题定位耗时。在训练过程感知阶段( Phase-2 ),Aegis 找到了集合通信库这一桥接计算过程和通信过程的通用组件,并进行针对性的诊断能力增强,实现了基于集合通信信息的全面在线的故障诊断,进一步降低了 91% 的问题定位耗时。


在诊断训练任务失败这类问题之外,Aegis 还进一步覆盖了性能回退场景的问题定位以及交付前问题的前置检查。最终模型训练过程中的性能回退比例以及任务重启次数都得到了大幅降低,全方位地为阿里云上大模型训练任务的稳定运行保驾护航。


此外,本次入选的其他 4 篇论文也有突出表现:

论文《 SimAI: Unifying Architecture Design and Performance Tuning for Large-Scale Large Language Model Training with Scalability and Precision 》中,SimAI 作为业界首个全栈的高精度大模型集群训练模拟器,通过最大程度还原实际训练框架、集合通信、GPU 算子等的执行流程和开销,实现了小于 5% 端到端仿真误差的高仿真精度,在阿里云智算集群新机型、新架构的评估中发挥了重要作用。

SimAI整体框架

论文《 Learning Production-Optimized Congestion Control Selection for Alibaba Cloud CDN 》中,阿里云研发了一个基于深度学习的智能 CDN 拥塞控制选择系统 AliCCS,它突破了单一拥塞控制算法难以适应多变网络环境的难题。在阿里云 CDN 大规模部署后,AliCCS 在阿里云 CDN 大规模部署后,降低视频卡顿率 9.31%,降低重传率25.51%以上,显著降低 CDN 运营成本并改善短视频用户体验。

AliCCS工作流程

论文《 GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale Prism 》介绍了阿里云 GPU 解耦型推理场景的全新方案设计,它彻底消除了 GPU 资源碎片问题。在大促等流量高峰期间,Prism 能高效实现从训练集群向推理集群的资源“借调”,节省超过 90% 的 GPU 资源。

Prism核心设计

论文《 Mitigating Scalability Walls of RDMA-based Container Networks 》中,针对容器化 RDMA 场景在表项卸载中存在的性能问题,ScalaCN 提出了一种组合因果测试方法,用于高效建模 RNIC 架构、有效逼近其性能模型;提供了系统性的异常发现、根因定位与优化能力;实际高卸载压力场景下的网络吞吐提升高达 40%。

ScalaCN核心设计

阿里云智能研发副总裁、基础网络负责人蔡德忠表示:“从智算网络集群异常诊断到大模型训练仿真系统,从 CDN 智能控制到云原生网络创新,阿里云持续将产业级技术难题和学术创新融合,为 AI 大模型时代下云计算基础设施发展做出贡献。”

NSDI 学术会议

NSDI 是美国高等计算系统协会 ( USENIX 协会) 举办的顶级学术会议,与 ACM SIGCOMM 并列为计算机网络和系统研究领域最高水平的两大会议,被中国计算机学会(CCF)评为 A 类推荐会议,Core Conference Ranking 也给予其A级别评价,代表了最前沿的科研水平和影响力。此次会议共收到 666 篇投稿,录用 83 篇论文,录取率不到12.5%,是 NSDI 历史录取率最低一次。

相关文章
|
7月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1263 2
|
5月前
|
运维 监控 数据可视化
故障定位48小时→5分钟:靠的不是玄学,是“全网透视眼”
在多云部署的网络架构下,企业需要全方位监控全链路网络,解决故障定位难题。 Fusion WAN可视化平台提供实时监控和故障定位能力,帮助企业实现业务畅通。
故障定位48小时→5分钟:靠的不是玄学,是“全网透视眼”
|
1月前
|
人工智能 监控 调度
哈希极化、拓扑盲点与拥塞抖动:主流端网协同方案如何缓解万卡集群通信瓶颈?
随着大模型参数规模迈向万亿级,万卡乃至十万卡 GPU 集群正成为 AI 训练基础设施的标配,而万卡集群三大通信瓶颈——哈希极化、拓扑盲点与拥塞抖动,对网络架构提出了前所未有的挑战。本文基于主流互联网大厂的公开实践,深入剖析超大规模集群中端网协同架构的设计思路,并探讨面向 MoE 与 DeepSeek 等新型模型的下一代 AI 网络演进方向。
哈希极化、拓扑盲点与拥塞抖动:主流端网协同方案如何缓解万卡集群通信瓶颈?
|
2月前
|
人工智能 安全 架构师
2025云栖大会 | 阿里云网络技术Session主题资料和视频回放归档
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
544 2
|
7月前
|
人工智能 运维 安全
中企出海大会|打造全球化云计算一张网,云网络助力中企出海和AI创新
阿里云网络作为全球化战略的重要组成部分,致力于打造具备AI技术服务能力和全球竞争力的云计算网络。通过高质量互联网服务、全球化网络覆盖等措施,支持企业高效出海。过去一年,阿里云持续加大基础设施投入,优化海外EIP、GA产品,强化金融科技与AI场景支持。例如,携程、美的等企业借助阿里云实现业务全球化;同时,阿里云网络在弹性、安全及性能方面不断升级,推动中企迎接AI浪潮并服务全球用户。
1162 8
|
8月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
3月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
11月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
1156 146
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
11月前
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结

热门文章

最新文章