メインコンテンツにスキップ
中央ノードに収束する、流れるようなデジタルブルーのデータラインによる未来的で抽象的なトンネル。これは、超高速データセンター接続性を表しています。

AIデータセンター向け光回路スイッチング:300ポートを超える拡張性

オール光データセンターネットワークへの移行が進んでいますが、AIトレーニングクラスターは、それらを接続するスイッチよりも速いペースで拡大しています。次世代の光回路スイッチ(OCS)プラットフォームは、厳しい挿入損失の制限を維持し、システムレベルの信頼性を保証しながら、現在のポート数をはるかに超える性能を実現する必要があります。

読了時間:5分

従来の電子パケット処理を直接的な光の物理経路に置き換えることで、光回路スイッチングはネットワーク上でのデータ移動方法を根本的に変革します。このオールオプティカルコアへの移行は、ハイパースケールにおいてすでにその価値を証明しており、導入により、従来の電子スイッチングと比較して電力消費量を40%削減し、ダウンタイムを50分の1に削減しました。しかし、OCSは電気スイッチングのボトルネックを解消する一方で、新たな複雑さを物理層に直接集中させています。

AIのスケーリング曲線は、OCSの第1世代製品を急速に上回っています。トレーニングクラスターが数万個のGPUを搭載したポッドをサポートするように拡張されると、物理層は光ルーティングと高密度化に対する前例のない要求に対応しなければなりません。事業者は、現在のほとんどのベンダーの能力の上限である300ポートをはるかに超えるスイッチマトリックスを公に要求しています。

データセンターアーキテクトにとっての問いは実務的なものです。OCSプラットフォームは、AIインフラストラクチャ構築のペースに合わせて、ポート数と製造成熟度を迅速に拡張できるでしょうか? この課題を解決するには、スイッチとその周辺の物理層を単一の包括的なプラットフォームとして扱う必要があります。

ハイパースケール光回路スイッチング性能を決定づける4つの属性

AIトレーニングクラスターが数十万台のアクセラレーターへと拡大するにつれ、ネットワークの中核である光回路スイッチには、それに比例して大規模なスイッチングマトリックスが必要となります。ポート数はネットワークアーキテクチャを決定づけますが、高ラディックススイッチがハイパースケールで実際に性能を発揮できるかどうかは、4つの属性によって決まります。

ラディックスの問題

最新のAIスーパーポッドはそれぞれ約14,000個の光ポートを必要とし、300ポートを超える単体スイッチへの需要が高まっています。数万台ものGPUポッドにわたるネットワーク層を最小限に抑えるため、ハイパースケールデータセンターの運用者は、数千ポートのスイッチマトリックスを積極的に求めています。このレベルまで拡張すると、超高密度光ケーブルと実用的な現場保守性、平均修復時間(MTTR)のバランスを取るという、二次的な物理的課題が生じます。

挿入損失

OCSアーキテクチャでは、光スパンが2倍になるため、すべてのデシベルの損失が重要になります。標準の遠距離(FR)オプティクスは、モジュールによって異なりますが、約4dBから6dBという限られたリンクバジェットしか持ちません。スイッチからのいかなる内部損失も、それらの厳しいマージンに直接食い込み、リーチと使用可能な光学マージンを減らします。このような厳しいバジェットを大規模に維持するには、組み込みテストとテレメトリによってパフォーマンスを継続的に監視し、光パスを検証する必要があります。

大規模環境での信頼性

光スイッチの故障がシステム全体に及ぼす影響、いわゆる「影響範囲」は、AIトレーニングジョブ全体を停止させる可能性があります。この規模では、コンポーネントの信頼性が99.999%であっても、許容できないシステムレベルのダウンタイムにつながる可能性があります。高いコンポーネント定格は、それが許容可能なシステム平均故障間隔(MTBF)と全体的な可用性に直接結びつく場合にのみ意味を持ちます。迅速な障害復旧も極めて重要です。スイッチングの遅延は、アクティブなAIジョブを中断することなく動的なワークフローを継続できるかどうかを左右するからです。

製造準備状況

ラボの試作品と量産グレードのプラットフォームは全く異なるものです。ハイパースケールオペレーターは、実績のある大量生産プロセスを通じて数千台のユニットを予定通りに納入できる能力を備えたベンダーを必要としています。初期設計から量産への移行では、歩留まりを維持するための一貫した組立技術と厳格な試験プロトコルが鍵となります。

Molexの高ラディックス光回路スイッチプラットフォーム

Molexは、大手グローバルハイパースケーラーのスケーリング限界を解決するために、高ラディックス光回路スイッチ(OCS)プラットフォームを開発しました。この設計は、約20年にわたるマイクロ電気機械システム(MEMS)技術の展開と、光ネットワークアプリケーション向けに出荷された200万台以上のデバイスに基づいています。

ラディックスの壁を打ち破る

544×544において、Molexのソリューションはこれまでに発表されたMEMSベースのOCSの中で最高のラディックスを実現しています。より高いラディックスにより、アーキテクトはスイッチとホップの数を減らして、よりフラットなスーパーポッドアーキテクチャを構築できます。この高密度の実現に利用されているのが、MEMSのチルト範囲を最大限に活用する特許取得済みの光学設計です。このアプローチにより、必要なMEMSの偏向角を50%削減できるため、実績のある高安定性構造設計を用いながら、システムの拡張性を大幅に高めることができます。

光学性能とスイッチング性能

この高ラディックススイッチは、すべての経路で安定した低挿入損失を維持し、標準挿入損失は3 dBです。損失を予測可能にすることで、ネットワーク全体の光リンクバジェットを厳しく管理できます。544×544スイッチは、動的な再構成と障害復旧のための予測可能なスイッチング動作もサポートしており、最大スイッチング時間は150ms未満、現在は100msを目指して開発を継続中です。このサブ秒レベルのパフォーマンスにより、事業者はトラフィックを迅速に再ルーティングし、ハードウェア障害を回避してクラスターの継続的な運用を維持できます。

本番導入向けに構築

MEMSは光パスにアクティブな媒体がない光領域で動作するため、Molex高ラディックスOCSプラットフォームはプロトコルやデータレートに依存せず、ハードウェアを変更することなく800Gbps~1.6Tbps以上をサポートします。完全にフォトニック領域で動作するため、消費電力は極めて低く抑えられ、500ポート以上を管理してもわずか245ワットです。Molexは、グローバルな光製造と高度な組み立て能力で544x544スイッチをサポートします。組み立てプロセスでは、機械的な構造とソフトウェア駆動キャリブレーションを組み合わせることで、すべての光リンクを確立および調整します。

AIのための包括的な光エコシステム

高ラディックスの光回路スイッチはコアルーティングの課題を解決しますが、それは巨大な物理ネットワークにおける1つのノードにすぎません。ハイパースケールでオール光ネットワークを構築するには、完全な物理インターコネクトインフラストラクチャが必要です。

1枚のスイッチフェースプレートに1,000本以上の光ファイバーを終端処理し、低挿入損失を維持するために最大600ペアのLC-APCまたはLC-UPCアダプターを使用する場合、膨大な物理密度とルーティング要求が発生します。エコシステムは、シャーシ自体をはるかに超えて広がっています。データセンターフロア全体で厳格なリンクバジェットを維持するには、高性能光ケーブルアセンブリー、高度なファイバー管理、そして厳密なエンドツーエンドテストが不可欠です。

オール光データセンターの構築には、コアスイッチと周辺の物理層インフラストラクチャの両方において、高度な製造能力が求められます。Molexは、インターコネクト経路全体を一貫して提供することで、オール光データセンターネットワークの構築と拡張に必要な包括的な物理エコシステムを設計者に提供します。

Molexの高ラディックスOCSプラットフォームが、次世代のAIデータセンターに必要な拡張性、信頼性、パフォーマンスをどのように提供するかをご覧ください。

シェア