跳至主要内容
Futuristic server-room tunnel lined with illuminated racks and glowing blue LED lighting.

统一网络:AI 数据中心连接的未来

AI 庞大的算力需求正引领传统数据中心网络进入新纪元,推动业界突破当前复杂的协议拼凑架构。部分行业机构正在为名为“统一网络”的新架构绘制蓝图。然而,要将这一强大的概念变为现实,必须对组成其结构的物理互连系统进行彻底改造。

作者:Vivek Shah
Molex 先进技术资深总监

AI 处理器性能的提升,已使网络瓶颈从计算层面转移到连接层面。数据中心的网络架构,即连接处理器、加速器和内存的交换机、光模块及电缆所构成的高速通信基础设施,如今已成为扩展 AI 网络的关键瓶颈。当今的高性能数据中心依赖的是各种专用互连技术的拼凑架构,例如 PCIe、NVLink、以太网以及新兴的 Compute Express Link (CXL)。每种技术在其各自领域均表现出色,但若将这些协议拼接在一起,则会导致延迟、能效低下和管理复杂性等问题,从而限制整体系统性能。

业界的解决方案是统一网络架构:这是一种融合连接的愿景,旨在将整个数据中心视为一个单一、连贯的计算系统。这就将关键的工程挑战从软件编排转移到物理层。现在,连接器、光学器件和布线必须应对 AI 级计算带来的海量数据、信号完整性和散热需求。

拼凑架构为何难以为继

如今的 AI 数据中心连接策略是一系列专用协议的组合,其整体效率低于各部分效率的总和。PCIe、NVLink、以太网及 CXL 等每个协议都针对其各自领域进行了优化,但数据必须跨越多个层级才能在计算、内存和存储资源之间流动。每次协议转换都会引入延迟、缓冲和转换开销,这些因素共同作用会制约 AI 的训练表现,并导致昂贵的计算资源利用率不足。

各种互连系统各自的局限,凸显了异构 AI 网络所面临的挑战。NVLink 可在单台服务器内提供 GPU 间的卓越带宽,但无法原生跨节点扩展。以太网和 InfiniBand 虽然能连接不同机架和整个集群,但与原生 GPU 网络相比,其协议栈及 CPU 驱动的数据处理方式会带来显著的软件开销与延迟损耗。PCIe 及新兴的 CXL 标准为外设和内存提供了通用性,但它们主要作为特定任务的专用扩展存在,并非高带宽 GPU 通信方案。

AI 数据中心连接的新愿景:统一网络

为解决当前拼凑架构的问题,业界提出了“统一网络”的愿景:一种旨在将多种专用协议整合为单一的高性能网络,以便承载 AI 关键数据流量的设计。其指导原则是极致的简化。统一网络并非维护 PCIe、NVLink 和以太网等各自独立的领域,而是构建一个扁平化、可组合的网络,无缝承载数据中心的计算、存储及内存流量。该架构实现了“超级节点”的概念,即将整个集群视为一个可动态重构的资源池。在此模型中,一个机架中的 GPU 可直接访问另一机架中的内存,且开销极低;存储流量被整合进同一高性能网络;计算资源则可动态重新配置,以实现利用率最大化。

目前,多项重要的行业倡议正在推进这一愿景。这些倡议涵盖广泛,既有华为 UB-Mesh 等具体供应商方案(其目标是为每个 ASIC 提供超过 10Tbps 的带宽,延迟仅为亚微秒级),也有超以太网联盟等更广泛的行业协作。产生的实际成果将精准应对当前拼凑架构的低效问题:显著降低延迟以加速大规模 AI 训练,简化基础设施以减少运营开销,通过动态资源分配最大限度减少硬件闲置或利用率不足的情况。

AI 数据中心连接的物理层挑战

虽然统一网络是一个极具潜力的协议概念,但其具体实施将主要的工程挑战转移到物理层,从而对整个互连路径提出了全新要求:

  • 片上 I/O:巨大的带宽需求正驱动共封装光学技术 (CPO) 的采用,即将光学收发器直接集成到处理器旁。这将给热管理、供电与可维护性带来新的工程挑战。
  • 内部信号路径:在传统 PCB 上实现 224Gbps-PAM-4 信号传输可能成为一个关键瓶颈,因为高数据传输率会导致信号衰减并损害整体系统性能。
  • 机架级连接:要实现跨数千个节点的网络扩展,数据中心需要具备超高密度线缆的先进可插拔连接器,既能可靠处理每端口 1.6Tb 的速率,同时又能维持信号完整性。

除硬件外,下一代网络还必须应对生态系统采用、与现有标准的兼容性以及保持供应商中立性等多重挑战。

为 AI 数据中心连接奠定基础

要满足统一网络的物理需求,需要采用一种考虑整个互连路径的工程方法。作为开放计算项目 (OCP) 的核心贡献者,Molex 不仅助力制定下一代硬件的开放标准,更为应对新架构下的海量数据负载、热管理挑战与高密度要求提供一系列解决方案产品组合。 

片上 I/O 密度和热管理
转向 CPO 带来了关键挑战,涉及热管理和提升现场可维护性。Molex 外部激光源互连系统 (ELSIS) 是一种完整的可插拔解决方案,可将激光器移出处理器基板。这种方法采用盲插设计,无需用户直接接触光纤,因此可提高散热性能、简化维护并增强系统安全性。

内部信号完整性
在传统 PCB 上实现 224Gb-PAM-4 信号传输会因信号衰减而产生严重的内部瓶颈。BiPass 技术提供直连 I/O 的解决方案,通过专用的低损耗双轴电缆传输高速信号,从而绕过 PCB。这样可以保持数据完整性,无需昂贵、耗电的重定时器,从而降低系统成本和热负荷。 

机架级连接
在数千个节点上扩展网络需要新一代 I/O 端口,以实现 1.6Tb+ 的速度和极高密度。QSFP-DDOSFP 可插拔连接器产品组合可提供必要的行业标准高密度接口。该系列解决方案能提供稳定可靠的高带宽连接,同时具备 QSFP-DD 的向后兼容性和 OSFP 外形的卓越热管理等显著优势。

Molex:精心设计统一的未来

向统一网络的转变,代表着对 AI 数据中心连接的根本性重构,这是满足大规模 AI 工作负载需求的必然演进。尽管软件协议持续发展,但实现以极低延迟、功耗和信号衰减传输太比特级数据的底层物理需求,仍是长期存在的工程挑战。归根结底,任何统一网络无论协议如何,其性能最终均取决于其物理底层结构在创新、效率与可靠性上的表现。 

Molex 将深厚的工程专业知识应用于整个互连路径,致力于提供基础硬件,将统一网络概念转化为现实,并实现高性能和可扩展性。 

探索连接 AI 网络的解决方案。