
上周(9/13-15)到深圳的CIOE(China International Optoelectronic Exposition)大会参观了一下,发现有多家公司演示了其PCIe over Fibre技术。如果你对于如下几个主题感兴趣的话,那么一定要读一下本文的分析:
-
为什么需要PCIe over Fibre技术?它解决了数据中心的哪些需要?
-
目前PCIe over Fibre的具体实现方式有哪几种?国际上哪些大厂以及startup公司已经成功演示了PCIe Gen5/6/7 over fibre方案?我现场看到PCIe over Fibre的两种实现方式:1)CDFP AOC光缆;该实现方式为混合缆,内部除了光纤外,还有单独的多根铜缆用来传输PERST#, CLKREQ#等多个低速信号;2)基于retimer卡的光互连,即,在server的插槽里面插入一张特殊定制开发的PCIe Gen5/6 retimer 卡,CPU的PCIe信号到达该retimer卡经过retimer芯片进行信号整形后,然后经过光引擎将电信号转换为光信号,通过retimer卡外联端面的两个x8端口(一般是QSFP-DD)通过QSFP-DD AOC光缆(或者QSFP-DD光模块+MPO optical cable)传输到对端,每个x8光缆里面除了高速PCIe信号外,还需要将PERST#复位信号也调制到光信号进行传输。对面接收端使用同样的retimer卡将光信号转变为电信号后经过retimer芯片然后送到device (end point)端,例如一张GPU卡。
结合上述我现场看到的演示,我也产生了另外几个问题:
-
CDFP接口不是被OSFP和QSFP-DD接口取代了吗?为什么目前数据中心仍然有该接口在使用?为什么PCIe over Fibre实现的时候有的公司仍然还会使用CDFP接口?这个是一个临时过渡手段吗?只是为了存量市场开发的吗?
-
上述两种PCIe over Fibre实现中,方式1使用的混合缆中的铜缆如何解决传输50米或者更长距离衰减的问题;
-
上述两种PCIe over Fibre实现中,方式2使用的纯光缆实现是如何解决将低速信号,例如PERST#调制到光信号进行传输的呢?
最后,我们可以看一下PCIe发展和光通讯发展的对应关系,目前我看到是如下的匹配关系:
-
PCIe Gen6 = 64Gbps; 基本匹配Ethernet 56G per lane; x16 data rate (1Tbps)
-
PCIe Gen7 = 128Gbps;基本匹配Ethernet 112G per lane; x16 data rate (2Tbps)
-
PCIe Gen8 = 256Gbps;基本匹配Ethernet 224G per lane; x16 data rate (4Tbps)
也就是说,PCIe Gen7 x16 的速率(2Tbps)大概 匹配 Ethernet 224G *8 (1.6Tbps)光模块的速度;换言之,一张网卡如果ethernet采用OSFP 800G端口,那么PCIe接口必须要用PCIe 6.0 x16,例如Nivida CX-8 superNIC网卡;未来,例如明年如果ethernet采用OSFP (或者OSFP-XT) 1.6T端口,那么PCIe接口必须要用PCIe 7.0 x16。
最后,用于连接两张PCIe接口卡之间的PCIe over fibre实现的AOC光缆和用于连接两张800G/1.6T网卡之间的AOC光缆之间到底存在哪些不同呢?
PCIe Over Fibre 技术综述
为什么需要 PCIe Over Fibre?
随着数据中心内计算和加速资源的解耦和大规模部署,PCIe 总线的互连距离需求大幅增加。在传统服务器内部,PCIe 通常只能在主板上短距离传输,但在AI/HPC集群中希望跨机架连接 GPU、SSD 等设备,实现资源池化和组合架构。铜缆PCIe连接受限于距离(通常最长仅约3米),即使使用中继retimer也只能扩展到7米左右,两级retimer是规范上限。这远不能满足跨机架、大型集群的需求。采用光纤传输PCIe(即“PCIe over Fibre”)可以突破电连接的距离限制,支持数十米乃至上百米的链路,同时保持PCIe固有的低时延特性。例如,GigaIO公司的GPU集群采用光纤后,可以将多个包含32个GPU的节点跨机架相连,突破铜缆3米的束缚。另一方面,随着PCIe速率提升,长距离电连接变得更加困难和耗能,光连接提供了更好的信号完整性和功耗优势。因此,PCIe光互连被视为未来数据中心内扩展高带宽、低时延互连的关键技术
另外,PCIe物理层的发展已经接近铜质连接的极限,信号完整性挑战严峻,频繁使用retimer增加了系统复杂性和功耗。PCIe链路只能使用最多两个retimer(中继器),限制了拓扑扩展。相比之下,光纤链路无需多个级联的电中继即可覆盖更长距离,这对于在保持低延迟的同时实现资源池化至关重要。综上,PCIe over Fibre 能满足数据中心对远距离、高带宽、低时延互连的需求,用于CPU与加速卡/存储之间的直连扩展、跨机架的高速互联,以及未来基于PCIe/CXL的大规模组合架构。
PCIe Over Fibre 的实现方式与厂商概览
目前业内已经出现多种PCIe over Fibre的实现方案,主要分为有源光缆直连方案和基于Retimer转接卡的方案:
-
有源光缆直连(AOC)方案:通过专用的外部电缆,将PCIe总线的高速差分信号转换为光信号传输。这类方案通常使用特定封装的光收发接口(例如 CDFP 或自定义AOC)将整组PCIe通道通过一根光缆连接两端设备。在CIOE 2025上,有公司展示了采用 CDFP 有源光缆 的PCIe 5.0 x

2万+

被折叠的 条评论
为什么被折叠?



