2025_NIPS_StarTrail: Concentric Ring Sequence Parallelism for Efficient Near-Infinite-Context Trans

最新推荐文章于 2026-06-15 15:16:11 发布

原创最新推荐文章于 2026-06-15 15:16:11 发布 · 42 阅读

·

0

·

文章标签：

#语言模型 #人工智能

LLM Daily 同时被 2 个专栏收录

2803 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

883 篇文章

订阅专栏

StarTrail 论文总结与核心部分翻译

一、文章主要内容

本文针对Transformer模型在长序列分布式训练中面临的效率、内存和可扩展性三大核心挑战，提出了一种名为StarTrail的近无限上下文训练系统。该系统聚焦于解决环形序列并行（如Ring Attention）的通信低效问题，通过引入额外的并行维度，将GPU分组形成同心子环结构，在几乎不增加额外内存成本的前提下，大幅降低了点对点（P2P）通信量，同时避免了带宽瓶颈。

文章首先分析了现有序列并行方案的局限性：基于注意力头分片的方法（如DeepSpeed Ulysses）受限于注意力头数量，可扩展性不足；基于点对点通信的方法（如Ring Attention）虽支持近无限上下文，但通信负载极高。StarTrail通过“分而治之”的策略，将通信过程拆分为预处理、环形阶段和后处理三个步骤，利用集体通信（all-gather、reduce-scatter）与子环P2P通信结合的方式，实现了通信效率与可扩展性的平衡。

实验部分在NLP（GPT-style模型）和CV（DiT模型）任务、多种硬件环境（Nvidia H100/A100集群）中验证了StarTrail的性能：相比Ring Attention，GPT模型训练效率提升最高达77.12%，DiT模型最高达114.33%；在强扩展和弱扩展场景下均表现更优，且额外内存开销控制在可接受范围（7.9%-30.79%）。

二、创新点

多维度同心环并行结构：引入额外并行参数C（团队大小），将GPU划分为多个团队，每

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。