メインコンテンツにスキップ
Futuristic server-room tunnel lined with illuminated racks and glowing blue LED lighting.

ユニファイドファブリック:AIデータセンター接続の未来

AIが求める強烈な処理要件は、従来のデータセンターネットワークに代わる新時代の到来を告げており、業界は今日の各種プロトコルからなる複雑なパッチワークという現状から脱却しようとしています。業界の一部はすでに、ユニファイドファブリックと呼ばれる新しいアーキテクチャの青写真を作成しつつあります。しかしながら、この強力な概念を具体化するには、その構造を構成する物理的なインターコネクトの全面的な変革が必要です。

ヴィヴェク・シャー著
Molex、アドバンストテクノロジー担当シニアディレクター

AIプロセッサーのパフォーマンス向上により、ネットワークのボトルネックはコンピューティングから接続へとシフトしました。今や、データセンターのネットワークファブリック、すなわち、プロセッサーやアクセラレーター、メモリーをつなぐスイッチ、光学系、ケーブル配線からなる高速通信用インフラが、AIネットワークのスケーリングにおける重要な制約として浮上しています。今日の高性能データセンターは、PCIe、NVLink、イーサネット、新しいCXL(Compute Express Link)などの特殊な相互接続技術のパッチワークに依存しています。これらの技術はそれぞれのドメイン内では優れていますが、各プロトコルを統合すると、レイテンシーや電力の非効率性、管理の複雑さが発生し、全体としてシステムパフォーマンスの制約になります。

業界の答えは、ユニファイドファブリックアーキテクチャ。データセンター全体を単一のコヒーレントコンピューティングシステムとして扱うコンバージドコネクティビティの考え方です。この考え方により、重要なエンジニアリング上の課題はソフトウェアオーケストレーション上の問題から物理層の問題へとシフトします。AIスケールのコンピューティングでは、コネクターや光学系、ケーブル配線において膨大なデータ量、シグナルインテグリティ、熱に対する要件に対応することが不可欠になったのです。

今日のパッチワークが不十分な理由

今日のAIデータセンターの接続戦略は、目的別に特化したプロトコルの集合体であり、全体として個々の性能を足し合わせたほどの効率を発揮できません。PCIeやNVLinkからイーサネット、CXLまで、各プロトコルはそのドメインでは最適化されていますが、データはコンピューティングやメモリー、ストレージリソース間を移動するために複数のレイヤーを横断します。データの移動のたびにレイテンシー、バッファリング、変換のオーバーヘッドが生じることで、全体としてAIトレーニングのパフォーマンスが抑制され、貴重なコンピューティングリソースは十分に活用されないままになります。

異種混合のAIファブリックにおける課題は、各インターコネクトが抱えるそれぞれの制約を明らかにすることで浮き彫りになります。NVLinkは、サーバー内で並外れたGPU間帯域幅を提供しますが、ネイティブな形でノードにまたがって拡張することはできません。イーサネットとInfiniBandは、必要なラック間接続とクラスター接続を提供しますが、ネイティブのGPUファブリックと比較すると、プロトコルスタックとCPUによるデータ処理で、ソフトウェアオーバーヘッドとレイテンシーの面で大きなペナルティを伴います。PCIeと新しいCXL規格は、周辺機器やメモリーに汎用性を提供しますが、これらの規格は主として、高帯域幅GPU通信ではなく、特定のタスクに特化された拡張機能として機能します。

AIデータセンター接続のための新しいビジョン:ユニファイドファブリック

パッチワークという問題を解決するための業界のビジョンは、ユニファイドファブリックです。ユニファイドファブリックでは、それぞれに特化された複数のプロトコルをAIクリティカルなデータトラフィックのための単一の高性能ネットワークにコンバージします。基本原則は、根本からの簡素化です。ユニファイドファブリックは、PCIeやNVLink、イーサネットのドメインをそれぞれ個別に維持するのではなく、コンピューティング、ストレージ、メモリーのトラフィックをデータセンター全体にシームレスに伝送する、構成変更が可能で階層を簡素化したフラットなネットワークを形成します。このアーキテクチャは、クラスター全体を動的に再構成可能な1つのリソースプールとして扱う「SuperNode」という考え方を具現したものです。このモデルでは、1つのラックにあるGPUが、最小限のオーバーヘッドで別のラックのメモリーに直接アクセスすることが可能になり、ストレージのトラフィックが同じ高性能ファブリックに統合されます。また、コンピューティングリソースを動的に再構成して使用率を最大化できます。

このビジョンは、複数の主要な業界イニシアチブで推進されています。そうしたイニシアチブは、ASICあたり10Tbps以上の帯域幅とマイクロ秒未満のレイテンシーを目標とする、HuaweiのUB-Meshのような特定のベンダーの提案から、Ultra Ethernet Consortiumのようなより広範な共同の取り組みまで多岐にわたります。それらのイニシアチブが目指す具体的な成果は、現在のパッチワークアプローチの非効率性を直接的に解決することです。レイテンシーを大幅に低減することで、大規模なAIトレーニングが加速し、インフラストラクチャを簡素化することで、運用オーバーヘッドが減少します。また、動的にリソースを割り当てることで、アイドル状態のハードウェアや十分に活用されていないハードウェアが最小化します。

AIデータセンター接続の物理層の課題

ユニファイドファブリックは1つの強力なプロトコル概念ですが、その実装により、主要なエンジニアリング上の課題は物理層にシフトし、インターコネクトのパス全体に新しいレベルの要件が生まれます。

  • I/Oのオンチップ化:帯域幅要件の増大により、光トランシーバーをプロセッサーのすぐ隣に実装するコパッケージオプティクス(CPO)の採用が進みます。このため、熱管理、電力供給、保守性の面で新しいエンジニアリング上の課題が生まれます。
  • 信号パスの内部化:従来のPCBに224Gbps PAM-4信号をルーティングすると、高データレートが原因で信号劣化が起こり、システム全体のパフォーマンスを低下させるため、重大なボトルネックになる可能性があります。
  • ラックレベルの接続性:何千ものノードにまたがってファブリックを拡張するには、シグナルインテグリティを維持しつつ、1.6Tb/ポートを確実に処理できる超高密度ケーブルを備えた高度なプラガブルコネクターが必要です。

ハードウェア以外にも、次世代ファブリックはエコシステムの採用、既存の規格との互換性、ベンダー中立性の維持といった課題に対処する必要があります。

AIデータセンター接続の土台を築く

ユニファイドファブリックの物理要件を満たすには、インターコネクトのパス全体を考慮したエンジニアリングアプローチが必要です。OCP(Open Compute Project)の主要貢献企業として、Molexは次世代ハードウェアのオープンスタンダードの策定を支援し、この新しいアーキテクチャが持つ大きなデータ負荷、熱の課題、密度要件に対するソリューションのポートフォリオを提供しています。

オンチップI/Oの密度と熱
CPOへの移行では、熱の管理と現場の保守性の向上の面で大きな課題が生じます。Molex外部レーザー光源相互接続システム(ELSIS)は、プロセッサー基板をレーザーから切り離す完全なプラガブルソリューションです。このアプローチでは、ブラインド嵌合デザインを採用することで、光ファイバーへのユーザーアクセスを排除し、熱性能を向上させます。また、メンテナンスが簡素化され、システムの安全性が向上します。

内部のシグナルインテグリティ
従来のPCBに224Gb PAM-4信号をルーティングすると、信号の劣化を原因とする大きなボトルネックが内部的に発生します。BiPassテクノロジーは、PCBをバイパスする専用の低損失Twinaxケーブルを介して高速信号をルーティングする、I/Oに直接接続するソリューションになります。これによりデータの完全性が維持され、コストのかかる電力を必要とするリタイマーが不要になり、システムコストと熱負荷の両方を削減できます。

ラックレベルの接続性
何千ものノードにまたがってファブリックを拡張するには、1.6Tb以上の速度と超高密度を実現する新世代のI/Oポートが必要です。QSFP-DDおよびOSFPプラガブルコネクターは、業界標準で高密度の基本的なインターフェースを提供します。これらのソリューションには、堅牢で高帯域幅の接続を実現しながら、QSFP-DDの下位互換性やOSFPフォームファクターの優れた熱管理などの明確な利点があります。

Molex:統合された未来をエンジニアリングする

ユニファイドファブリックへの移行は、AIデータセンター接続の根本から再設計することであり、これは大規模なAIワークロードの要件を満たすために必要な進化です。ソフトウェアプロトコルは進化し続けていますが、レイテンシーや消費電力、信号劣化を最小限に抑えながら何テラビットものデータを移動するための土台となる物理的な要件は、依然としてエンジニアリングの課題であり続けています。結局のところ、ユニファイドファブリックのパフォーマンスは、そのプロトコルとは別の、物理的な下部構造の革新性と効率性、信頼性によって決まります。

Molexは、インターコネクトのパス全体に深いエンジニアリングの専門知識を活かし、ユニファイドファブリックの概念を高性能でスケーラブルな現実に変換する基盤となるハードウェアを提供します。

AIファブリック向け接続ソリューションをご覧ください。