跳至主要内容
未来感十足的抽象隧道,由汇聚于中心节点的流式蓝色数据线条构成,象征着超高速数据中心连接。

适用于 AI 数据中心的光电路交换:扩展到 300 个端口以上

向全光数据中心网络的转型正在推进,但 AI 训练集群的增长速度已超过连接它们的交换机。下一代光电路交换机 (OCS) 平台必须大幅超越当前的端口数量,同时严格控制插入损耗并保证系统级可靠性。

阅读时间:5 分钟

通过用直接的物理光路径取代传统的电子数据包处理,光电路交换将从根本上改变数据在网络中的传输方式。这种向全光核心的转变已在超大规模应用中证明了其价值,与传统电子交换相比,其部署可节省 40% 的功耗,并将停机时间减少至原来的五十分之一。然而,虽然 OCS 消除了电子交换瓶颈,但它也将新的复杂性直接汇聚到了物理层。

AI 的扩展曲线已迅速超越了第一代 OCS 产品。随着训练集群扩展至支持拥有数万个 GPU 的 POD,物理层必须应对前所未有的光路由和密度需求。运营商公开提出要求,交换机矩阵能力需远超目前大多数供应商所能提供的 300 端口上限。

对于数据中心架构师而言,这是一个现实的问题:OCS 平台能否快速提升其端口数量和制造成熟度,以跟上 AI 基础设施建设的步伐? 要解决这个问题,需要将交换机及其周边的物理层作为一个整体平台来考量。

定义超大规模光电路交换性能的四个属性

随着 AI 训练集群向数十万个加速器规模扩展,处于网络核心的光电路交换机需要同步扩大交换矩阵规模。端口数量将决定网络架构,但另有四个属性将决定一款高基数交换机是否真正能在超大规模下发挥性能。

基数问题

最新的 AI SuperPOD 每个需要近 14,000 个光学端口,这将推动单台交换机超过 300 个端口的需求。为了最大限度减少数万个 GPU 的 POD 之间的网络层级,超大规模数据中心运营商正积极寻求具备数千端口的交换机矩阵。扩展到该级别带来了一个次级物理挑战,即如何在超高密度光纤布线与实际现场可维护性及平均修复时间 (MTTR) 之间取得平衡。

插入损耗

在 OCS 架构中,当光学跨度翻倍时,每分贝的损耗都至关重要。标准远距 (FR) 光学器件链路预算有限,大约在 4 dB 至 6 dB 之间,具体取决于模块。交换机产生的任何内部损耗都会直接挤占本就紧张的裕度,从而缩短传输距离并减少可用的光学余量。要在规模化部署中维持这些严格的预算,就需要依靠嵌入式测试与遥测技术,持续监测性能并验证光学路径。

大规模下的可靠性

光交换机故障所产生的系统范围影响,即“故障影响范围”,可能足以让整个 AI 训练任务中断。在此规模下,即便是 99.999% 的元器件可靠性,也可能转化为不可接受的系统级停机时间。只有能直接转化为可接受的系统平均无故障时间和整体可用性,元器件的高额定值才有意义。快速的故障恢复同样不可或缺,因为交换延迟将决定动态工作流能否在不中断正在运行的 AI 任务的前提下持续进行。

制造就绪度

实验室原型设计与生产级平台是截然不同的概念。超大规模运营商需要供应商能够通过成熟的大规模制造工艺,按时交付数千台设备。从初始设计到批量生产,关键在于采用一致的装配技术和严格的测试规范,以保证良率。

Molex 高基数光电路交换机平台

Molex 开发了高基数光电路交换机 (OCS) 平台,用于解决一家全球头部超大规模运营商的扩展瓶颈。其设计依托于近二十年来微机电系统 (MEMS) 技术的部署经验,以及向光网络应用交付超过两百万台设备的实际业绩。

突破基数限制

Molex 解决方案的 544x544 规格,是迄今已发布、基于 MEMS 的 OCS 中最高的基数。得益于提高的基数,架构师能够构建更扁平的 SuperPOD 架构,同时减少交换机数量和跳数。实现这一密度依赖于一项专利设计,即利用 MEMS 全倾斜角度范围的光学设计。这种方法可将所需的 MEMS 偏转角减少 50%,从而在采用经过验证、高度稳定的结构设计的同时,实现系统的大规模扩展。

光学与交换性能

这款高基数交换机能在所有路径上保持稳定的低插入损耗,典型插入损耗仅为 3 dB。保持损耗的可预测性,有助于维持整个网络严格的光链路预算。该 544x544 交换机还支持动态重配置与故障恢复所需的可预测交换行为,最大交换时间低于 150 ms,并正朝着 100 ms 的目标持续进行开发。这种亚秒级的性能使运营商能够快速重路由流量、绕过硬件故障,从而维持集群的持续运行。

专为生产部署而构建

由于 MEMS 在光域中运行,光路径中无有源介质,因此 Molex 高基数 OCS 平台不受协议和数据传输率的限制,无需硬件更改即可支持 800Gbps 至 1.6Tbps 及更高速率。完全在光子域中运行能使功耗保持极低,仅需 245 瓦即可管理超过 500 个端口。Molex 凭借全球光学制造和先进的装配能力为 544x544 交换机提供支持。其装配过程将机械结构与软件驱动的校准相结合,以建立并对齐所有光学链路。

适用于 AI 的完整光学生态系统

高基数光电路交换机可解决核心路由挑战,但它仅是庞大物理网络中的一个节点。构建超大规模的全光网络,需要一套完整的物理互连基础设施。

单台交换机面板上需要端接上千根光纤,使用多达 600 对 LC-APC 或 LC-UPC 适配器以维持低插入损耗,这对物理部署密度和布线设计都提出了极高要求。整个生态系统远不止交换机机箱本身。要维持整个数据中心楼层严格的光链路预算,离不开高性能光缆组件、先进的光纤管理以及严格的端到端测试。

构建全光数据中心,需要在核心交换机及其周边的物理层基础设施上均具备制造深度。凭借覆盖完整的互连路径,Molex 可为架构师提供构建和扩展全光数据中心网络所需的完整物理生态系统。

了解 Molex 高基数 OCS 平台如何为下一代 AI 数据中心提供所需的扩展能力、可靠性和性能。

共享