本文为作者原创内容,首发于同名微信公众号【TechShareMore】,首发时间:2026年4月10日,已获得作者本人独家授权,同步发布于CSDN。
你有没有想过一个问题:一颗手机SoC里有CPU、GPU、NPU、内存控制器、ISP、基带等几十个模块,一颗AI加速芯片里甚至有上万个计算单元。它们之间是怎么高速通信的?
答案就是片上互连架构——芯片内部的“数据高速公路”。
从最早的单根共享总线,到如今统治高端芯片的NoC(片上网络),这条“高速公路”的进化史,就是整个芯片性能提升的缩影。今天我们就用最通俗的语言,带大家看懂芯片互连架构的前世今生。
一、共享总线:最早的“单车道乡村公路”
最早的芯片只有一个CPU核,所有外设都挂在一根总线上,这就是共享总线。
工作原理
所有模块共享同一组地址线、数据线和控制线。同一时刻,只能有一个主设备(比如CPU)占用总线,向一个从设备(比如内存)发送数据。
示意图

图1:共享总线架构示意图(所有模块共享同一根总线)
致命缺陷
-
带宽瓶颈:所有数据挤在一条“单车道”上,核心数越多,堵车越严重
-
延迟飙升:每个模块都要排队等待总线使用权
-
时序灾难:总线要贯穿整个芯片,高频设计时时序收敛几乎不可能
结论:共享总线最多只能支撑4核以下的简单芯片,早已被高端市场淘汰。
二、Crossbar:全连接的“立交桥”
为了解决共享总线的堵车问题,工程师们发明了Crossbar(交叉开关矩阵)。
工作原理
Crossbar就像一个M×N的全连接立交桥,任意一个入口都可以同时连接到任意一个出口,实现无阻塞并行传输。比如4×4 Crossbar可以同时支持4对设备独立通信,完全没有冲突。
示意图

图2:4×4 Crossbar架构示意图(任意输入可同时连接任意输出)
优点
-
延迟极低:单跳传输,没有路由转发延迟
-
带宽拉满:所有链路可以同时满负载工作
-
时序确定:没有排队和冲突,适合实时性要求高的场景
致命缺陷
硬件开销呈平方级增长!
一个N×N的Crossbar需要N²个开关。当N=16时,需要256个开关;当N=32时,需要1024个开关。面积和功耗会爆炸式增长,布线难度也会急剧上升。
结论:Crossbar只适合小规模互连(≤16个节点),现在主要用作NoC路由器内部的交换单元。
三、Ring:平衡成本的“环形公路”
既然Crossbar太贵,工程师们又想到了一个折中的方案:Ring(环形互连)。
工作原理
所有模块首尾相连,组成一个闭合的环形链路。数据沿着环单向或双向传输,通过令牌机制避免冲突。
示意图

图3:双向环形互连架构示意图(数据可顺时针和逆时针传输)
优点
-
成本极低:N个节点只需要N条链路,硬件开销线性增长
-
布线简单:环形走线非常规则,芯片布局布线难度低
-
可扩展性较好:可以轻松扩展到16个节点左右
致命缺陷
全局带宽瓶颈!
所有数据都要绕着环跑,整个环的总带宽是固定的。节点数越多,每个节点能分到的带宽就越少。而且数据传输延迟与节点间距离成正比,最远节点的延迟是最近节点的N/2倍。
结论:Ring架构在早期多核CPU和GPU中广泛使用,但现在也逐渐被Mesh架构取代。
四、Mesh:大规模多核的“城市路网”
当芯片进入16核以上时代,Ring架构也撑不住了。这时,Mesh(网格互连) 登场了,它也是现在高端芯片的绝对主流。
工作原理
所有节点排列成二维网格,每个节点只与上下左右四个相邻节点连接。数据通过路由节点逐跳传输到目标节点。
示意图

图4:2D Mesh架构示意图(每个节点仅与相邻节点连接)
优点
-
可扩展性极强:硬件开销线性增长,可以轻松扩展到上百个节点
-
并发度极高:不同区域的通信可以完全并行,没有全局带宽瓶颈
-
局部通信效率高:相邻节点通信只需要1跳,延迟极低
-
布线规则:网格走线整齐,非常适合大规模芯片布局
缺点
-
全局通信延迟高:最远节点通信需要O(N)跳数
-
带宽不均:中心节点的流量远大于边缘节点,容易出现拥塞
结论:现在几乎所有的高端多核CPU、AI加速芯片和超算芯片,都采用2D Mesh架构。
五、NoC:芯片互连的终极形态
当Mesh架构发展到一定阶段,工程师们发现:我们其实是在芯片内部建了一个小型计算机网络!
于是,NoC(Network on Chip,片上网络) 应运而生。它将计算机网络的分组交换、路由、流量控制思想完整引入片内,是新一代互连架构的集大成者。
NoC的基本组成
NoC由三个核心部分组成:
-
网络接口(NI):连接CPU、GPU等计算节点与NoC网络,负责将AXI等总线协议转换为NoC数据包格式
-
路由器(Router):NoC的核心,负责数据包的路由转发、流量控制和冲突仲裁
-
物理链路(Link):连接相邻路由器的高速链路,传输数据包和控制信号
示意图

图5:NoC基本组成示意图
NoC的核心优势
-
可扩展性无上限:支持上百甚至上千个核心的大规模互连,带宽随节点数线性扩展
-
时序收敛容易:支持全局异步局部同步(GALS),无需全局时钟同步
-
标准化程度高:有成熟的NoC IP核和工具链,可快速集成
-
适配Chiplet时代:可以无缝扩展为Die-to-Die NoC,实现多芯粒间的高速互连
NoC的最新发展趋势
-
3D NoC:结合3D堆叠TSV技术,实现垂直方向的互连,大幅减少跳数和延迟
-
Die-to-Die NoC:将NoC扩展到Chiplet之间,实现多芯粒的缓存一致性互连
-
智能NoC:集成AI加速单元,动态优化路由算法和流量控制
-
光NoC:用光信号替代电信号传输,突破电信号的带宽和功耗瓶颈
六、一张图看懂所有互连架构
最后,我们用一张对比表,总结一下各种互连架构的核心指标:
|
架构 |
可扩展性 |
硬件开销 |
平均延迟 |
峰值带宽 |
典型适用规模 |
|
共享总线 |
极差 |
极低 |
低 |
固定 |
≤4核 |
|
Crossbar |
差 |
平方级 |
极低 |
极高 |
≤16核 |
|
Ring |
中 |
线性 |
中 |
中 |
4~16核 |
|
Mesh |
极好 |
线性 |
中高 |
极高 |
≥16核 |
|
NoC(Mesh) |
无上限 |
线性 |
中高 |
线性扩展 |
≥16核、Chiplet |
写在最后
芯片互连架构的进化,本质上是不断提升并发度、降低延迟、平衡成本的过程。从单根共享总线到复杂的NoC网络,芯片内部的“高速公路”越来越宽,越来越智能。
未来,随着Chiplet和3D堆叠技术的普及,NoC将不仅是片内的互连标准,更会成为多芯粒系统的“通用语言”。它将彻底改变芯片的设计方式,让我们能够以更低的成本,制造出性能更强大的芯片。
4803

被折叠的 条评论
为什么被折叠?



