从共享总线到NoC：芯片内部的“高速公路”，是怎么一步步进化的？

最新推荐文章于 2026-05-19 13:37:28 发布

原创最新推荐文章于 2026-05-19 13:37:28 发布 · 680 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

本文为作者原创内容，首发于同名微信公众号【TechShareMore】，首发时间：2026年4月10日，已获得作者本人独家授权，同步发布于CSDN。

你有没有想过一个问题：一颗手机SoC里有CPU、GPU、NPU、内存控制器、ISP、基带等几十个模块，一颗AI加速芯片里甚至有上万个计算单元。它们之间是怎么高速通信的？

答案就是片上互连架构——芯片内部的“数据高速公路”。

从最早的单根共享总线，到如今统治高端芯片的NoC（片上网络），这条“高速公路”的进化史，就是整个芯片性能提升的缩影。今天我们就用最通俗的语言，带大家看懂芯片互连架构的前世今生。

一、共享总线：最早的“单车道乡村公路”

最早的芯片只有一个CPU核，所有外设都挂在一根总线上，这就是共享总线。

工作原理

所有模块共享同一组地址线、数据线和控制线。同一时刻，只能有一个主设备（比如CPU）占用总线，向一个从设备（比如内存）发送数据。

示意图

图1：共享总线架构示意图（所有模块共享同一根总线）

致命缺陷

带宽瓶颈：所有数据挤在一条“单车道”上，核心数越多，堵车越严重
延迟飙升：每个模块都要排队等待总线使用权
时序灾难：总线要贯穿整个芯片，高频设计时时序收敛几乎不可能

结论：共享总线最多只能支撑4核以下的简单芯片，早已被高端市场淘汰。

二、Crossbar：全连接的“立交桥”

为了解决共享总线的堵车问题，工程师们发明了Crossbar（交叉开关矩阵）。

工作原理

Crossbar就像一个M×N的全连接立交桥，任意一个入口都可以同时连接到任意一个出口，实现无阻塞并行传输。比如4×4 Crossbar可以同时支持4对设备独立通信，完全没有冲突。

示意图

图2：4×4 Crossbar架构示意图（任意输入可同时连接任意输出）

优点

延迟极低：单跳传输，没有路由转发延迟
带宽拉满：所有链路可以同时满负载工作
时序确定：没有排队和冲突，适合实时性要求高的场景

致命缺陷

硬件开销呈平方级增长！

一个N×N的Crossbar需要N²个开关。当N=16时，需要256个开关；当N=32时，需要1024个开关。面积和功耗会爆炸式增长，布线难度也会急剧上升。

结论：Crossbar只适合小规模互连（≤16个节点），现在主要用作NoC路由器内部的交换单元。

三、Ring：平衡成本的“环形公路”

既然Crossbar太贵，工程师们又想到了一个折中的方案：Ring（环形互连）。

工作原理

所有模块首尾相连，组成一个闭合的环形链路。数据沿着环单向或双向传输，通过令牌机制避免冲突。

示意图

图3：双向环形互连架构示意图（数据可顺时针和逆时针传输）

优点

成本极低：N个节点只需要N条链路，硬件开销线性增长
布线简单：环形走线非常规则，芯片布局布线难度低
可扩展性较好：可以轻松扩展到16个节点左右

致命缺陷

全局带宽瓶颈！

所有数据都要绕着环跑，整个环的总带宽是固定的。节点数越多，每个节点能分到的带宽就越少。而且数据传输延迟与节点间距离成正比，最远节点的延迟是最近节点的N/2倍。

结论：Ring架构在早期多核CPU和GPU中广泛使用，但现在也逐渐被Mesh架构取代。

四、Mesh：大规模多核的“城市路网”

当芯片进入16核以上时代，Ring架构也撑不住了。这时，Mesh（网格互连） 登场了，它也是现在高端芯片的绝对主流。

工作原理

所有节点排列成二维网格，每个节点只与上下左右四个相邻节点连接。数据通过路由节点逐跳传输到目标节点。

示意图

图4：2D Mesh架构示意图（每个节点仅与相邻节点连接）

优点

可扩展性极强：硬件开销线性增长，可以轻松扩展到上百个节点
并发度极高：不同区域的通信可以完全并行，没有全局带宽瓶颈
局部通信效率高：相邻节点通信只需要1跳，延迟极低
布线规则：网格走线整齐，非常适合大规模芯片布局

缺点

全局通信延迟高：最远节点通信需要O(N)跳数
带宽不均：中心节点的流量远大于边缘节点，容易出现拥塞

结论：现在几乎所有的高端多核CPU、AI加速芯片和超算芯片，都采用2D Mesh架构。

五、NoC：芯片互连的终极形态

当Mesh架构发展到一定阶段，工程师们发现：我们其实是在芯片内部建了一个小型计算机网络！

于是，NoC（Network on Chip，片上网络） 应运而生。它将计算机网络的分组交换、路由、流量控制思想完整引入片内，是新一代互连架构的集大成者。

NoC的基本组成

NoC由三个核心部分组成：

网络接口（NI）：连接CPU、GPU等计算节点与NoC网络，负责将AXI等总线协议转换为NoC数据包格式
路由器（Router）：NoC的核心，负责数据包的路由转发、流量控制和冲突仲裁
物理链路（Link）：连接相邻路由器的高速链路，传输数据包和控制信号

示意图

图5：NoC基本组成示意图

NoC的核心优势

可扩展性无上限：支持上百甚至上千个核心的大规模互连，带宽随节点数线性扩展
时序收敛容易：支持全局异步局部同步（GALS），无需全局时钟同步
标准化程度高：有成熟的NoC IP核和工具链，可快速集成
适配Chiplet时代：可以无缝扩展为Die-to-Die NoC，实现多芯粒间的高速互连

NoC的最新发展趋势

3D NoC：结合3D堆叠TSV技术，实现垂直方向的互连，大幅减少跳数和延迟
Die-to-Die NoC：将NoC扩展到Chiplet之间，实现多芯粒的缓存一致性互连
智能NoC：集成AI加速单元，动态优化路由算法和流量控制
光NoC：用光信号替代电信号传输，突破电信号的带宽和功耗瓶颈

六、一张图看懂所有互连架构

最后，我们用一张对比表，总结一下各种互连架构的核心指标：

架构	可扩展性	硬件开销	平均延迟	峰值带宽	典型适用规模
共享总线	极差	极低	低	固定	≤4核
Crossbar	差	平方级	极低	极高	≤16核
Ring	中	线性	中	中	4~16核
Mesh	极好	线性	中高	极高	≥16核
NoC（Mesh）	无上限	线性	中高	线性扩展	≥16核、Chiplet