从共享总线到NoC:芯片内部的“高速公路”,是怎么一步步进化的?

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

本文为作者原创内容,首发于同名微信公众号【TechShareMore】,首发时间:2026年4月10日,已获得作者本人独家授权,同步发布于CSDN。

你有没有想过一个问题:一颗手机SoC里有CPU、GPU、NPU、内存控制器、ISP、基带等几十个模块,一颗AI加速芯片里甚至有上万个计算单元。它们之间是怎么高速通信的?

答案就是片上互连架构——芯片内部的“数据高速公路”。

从最早的单根共享总线,到如今统治高端芯片的NoC(片上网络),这条“高速公路”的进化史,就是整个芯片性能提升的缩影。今天我们就用最通俗的语言,带大家看懂芯片互连架构的前世今生。


一、共享总线:最早的“单车道乡村公路”

最早的芯片只有一个CPU核,所有外设都挂在一根总线上,这就是共享总线

工作原理

所有模块共享同一组地址线、数据线和控制线。同一时刻,只能有一个主设备(比如CPU)占用总线,向一个从设备(比如内存)发送数据。

示意图

图片

图1:共享总线架构示意图(所有模块共享同一根总线)

致命缺陷

  • 带宽瓶颈:所有数据挤在一条“单车道”上,核心数越多,堵车越严重

  • 延迟飙升:每个模块都要排队等待总线使用权

  • 时序灾难:总线要贯穿整个芯片,高频设计时时序收敛几乎不可能

结论:共享总线最多只能支撑4核以下的简单芯片,早已被高端市场淘汰。


二、Crossbar:全连接的“立交桥”

为了解决共享总线的堵车问题,工程师们发明了Crossbar(交叉开关矩阵)

工作原理

Crossbar就像一个M×N的全连接立交桥,任意一个入口都可以同时连接到任意一个出口,实现无阻塞并行传输。比如4×4 Crossbar可以同时支持4对设备独立通信,完全没有冲突。

示意图

图片

图2:4×4 Crossbar架构示意图(任意输入可同时连接任意输出)

优点

  • 延迟极低:单跳传输,没有路由转发延迟

  • 带宽拉满:所有链路可以同时满负载工作

  • 时序确定:没有排队和冲突,适合实时性要求高的场景

致命缺陷

硬件开销呈平方级增长

一个N×N的Crossbar需要N²个开关。当N=16时,需要256个开关;当N=32时,需要1024个开关。面积和功耗会爆炸式增长,布线难度也会急剧上升。

结论:Crossbar只适合小规模互连(≤16个节点),现在主要用作NoC路由器内部的交换单元。


三、Ring:平衡成本的“环形公路”

既然Crossbar太贵,工程师们又想到了一个折中的方案:Ring(环形互连)

工作原理

所有模块首尾相连,组成一个闭合的环形链路。数据沿着环单向或双向传输,通过令牌机制避免冲突。

示意图

图片

图3:双向环形互连架构示意图(数据可顺时针和逆时针传输)

优点

  • 成本极低:N个节点只需要N条链路,硬件开销线性增长

  • 布线简单:环形走线非常规则,芯片布局布线难度低

  • 可扩展性较好:可以轻松扩展到16个节点左右

致命缺陷

全局带宽瓶颈

所有数据都要绕着环跑,整个环的总带宽是固定的。节点数越多,每个节点能分到的带宽就越少。而且数据传输延迟与节点间距离成正比,最远节点的延迟是最近节点的N/2倍。

结论:Ring架构在早期多核CPU和GPU中广泛使用,但现在也逐渐被Mesh架构取代。


四、Mesh:大规模多核的“城市路网”

当芯片进入16核以上时代,Ring架构也撑不住了。这时,Mesh(网格互连) 登场了,它也是现在高端芯片的绝对主流。

工作原理

所有节点排列成二维网格,每个节点只与上下左右四个相邻节点连接。数据通过路由节点逐跳传输到目标节点。

示意图

图片

图4:2D Mesh架构示意图(每个节点仅与相邻节点连接)

优点

  • 可扩展性极强:硬件开销线性增长,可以轻松扩展到上百个节点

  • 并发度极高:不同区域的通信可以完全并行,没有全局带宽瓶颈

  • 局部通信效率高:相邻节点通信只需要1跳,延迟极低

  • 布线规则:网格走线整齐,非常适合大规模芯片布局

缺点

  • 全局通信延迟高:最远节点通信需要O(N)跳数

  • 带宽不均:中心节点的流量远大于边缘节点,容易出现拥塞

结论:现在几乎所有的高端多核CPU、AI加速芯片和超算芯片,都采用2D Mesh架构。


五、NoC:芯片互连的终极形态

当Mesh架构发展到一定阶段,工程师们发现:我们其实是在芯片内部建了一个小型计算机网络!

于是,NoC(Network on Chip,片上网络) 应运而生。它将计算机网络的分组交换、路由、流量控制思想完整引入片内,是新一代互连架构的集大成者。

NoC的基本组成

NoC由三个核心部分组成:

  1. 网络接口(NI):连接CPU、GPU等计算节点与NoC网络,负责将AXI等总线协议转换为NoC数据包格式

  2. 路由器(Router):NoC的核心,负责数据包的路由转发、流量控制和冲突仲裁

  3. 物理链路(Link):连接相邻路由器的高速链路,传输数据包和控制信号

示意图

图片

图5:NoC基本组成示意图

NoC的核心优势

  1. 可扩展性无上限:支持上百甚至上千个核心的大规模互连,带宽随节点数线性扩展

  2. 时序收敛容易:支持全局异步局部同步(GALS),无需全局时钟同步

  3. 标准化程度高:有成熟的NoC IP核和工具链,可快速集成

  4. 适配Chiplet时代:可以无缝扩展为Die-to-Die NoC,实现多芯粒间的高速互连

NoC的最新发展趋势

  1. 3D NoC:结合3D堆叠TSV技术,实现垂直方向的互连,大幅减少跳数和延迟

  2. Die-to-Die NoC:将NoC扩展到Chiplet之间,实现多芯粒的缓存一致性互连

  3. 智能NoC:集成AI加速单元,动态优化路由算法和流量控制

  4. 光NoC:用光信号替代电信号传输,突破电信号的带宽和功耗瓶颈


六、一张图看懂所有互连架构

最后,我们用一张对比表,总结一下各种互连架构的核心指标:

架构

可扩展性

硬件开销

平均延迟

峰值带宽

典型适用规模

共享总线

极差

极低

固定

≤4核

Crossbar

平方级

极低

极高

≤16核

Ring

线性

4~16核

Mesh

极好

线性

中高

极高

≥16核

NoC(Mesh)

无上限

线性

中高

线性扩展

≥16核、Chiplet


写在最后

芯片互连架构的进化,本质上是不断提升并发度、降低延迟、平衡成本的过程。从单根共享总线到复杂的NoC网络,芯片内部的“高速公路”越来越宽,越来越智能。

未来,随着Chiplet和3D堆叠技术的普及,NoC将不仅是片内的互连标准,更会成为多芯粒系统的“通用语言”。它将彻底改变芯片的设计方式,让我们能够以更低的成本,制造出性能更强大的芯片。 

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值