産業とアプリケーション
大規模言語モデル(LLM)は、その根本的な部分では一見単純なタスクを実行しています。それは、シーケンス内で最も確率の高い次のトークンを予測することです。トークンは、単語または単語の一部を表すLLMの基本的なデータ単位です。しかし、このプロセスを大規模に実行するには、テキストとコードの膨大なデータセットから学習する複雑なソフトウェアアーキテクチャが必要です。このアプローチは、人工知能における驚異的な新機能を実現しましたが、それを可能にするシステムに重要な新しい要求ももたらしました。実際、これらのモデルのパラメーター数が数十億から数兆に増加するにつれて、対応するハードウェア要件は指数関数的に増加します。
LLMのパワーはソフトウェア設計から始まりますが、その設計が大きな物理的課題の原因にもなります。モデルの内部メカニズムは、AIクラスターの物理インフラストラクチャを飽和させるほどのハードウェア要件を課し、根本的なパラドックスを生み出します。LLMを非常に強力にするアルゴリズムは、その一方で、現在のハードウェアでは処理できない物理的なデータトラフィックの渋滞も引き起こすのです。
LLMの構造:ソフトウェアからシグナルへ
LLMのハードウェア要件の理解は、ソフトウェアプロセスの検証から始まります。LLMは膨大なデータセットでトレーニングされており、多くの場合、そのデータセットは数十億のウェブページ、書籍、記事で構成されています。これによって単語とフレーズ間の統計的関係を学習できます。人間の言語を機械用に準備するプロセスは、トークン化から始まります。トークン化では、テキストがトークンと呼ばれる小さな単位に分割され、数値IDが割り当てられます。
各トークンの数値IDは、その後、トークンの意味を捉える多次元ベクトルである埋め込み表現にマッピングされます。対応する埋め込みテーブルは膨大になる場合があり、格納とアクセスのために大量の高速メモリーを消費します。
最新のLLMのほとんどは、数千のプロセッサー間で並列処理を行うように設計された構造であるTransformerニューラルネットワークアーキテクチャ上に構築されています。これは、データを逐次的にしか処理できなかった古いリカレントニューラルネットワーク(RNN)アーキテクチャと比較して画期的なものでした。このアーキテクチャの主要コンポーネントは、シーケンス内のさまざまな単語の重要性を重み付けする仕組みである自己注意メカニズムです。モデル自体は、数十億または数兆のパラメーターを持つディープニューラルネットワークであり、パラメーターはトレーニング中に継続的に調整される内部の重みとバイアスです。
自己注意メカニズムは、N二乗の計算問題を生み出し、生成されたすべてのトークンに対してプロセッサー間で大量のデータシャッフルを発生させます。埋め込みのメモリー要件と自己注意によるデータトラフィックの両者により、LLMハードウェアの中核的要件が決まります。
自己注意メカニズム:LLMハードウェアのボトルネック
自己注意メカニズムは、LLMのパワーとその膨大なハードウェア要件の両方の原因となります。このメカニズムにより、モデルは文脈を理解できます。これはテキスト内の長距離依存関係を識別するのに不可欠で、これにより、モデルは、ある単語の意味がシーケンスのずっと前に現れた他の単語によってどのように影響されるかを理解できるようになります。これを達成するために、モデルは、プロセスの各ステップでコンテキストウィンドウ内のすべてのトークンを他のすべてのトークンと比較する必要があります。N二乗の計算要件は、GPUクラスター内で大規模な東西方向データトラフィックの爆発的増加を引き起こします。このプロセッサー間通信は、AIクラスター全体で最も負荷の高い単一のワークロードです。プロセッサーを接続する物理インターコネクトがこのデータの洪水を処理できない場合、GPUはデータ不足のままアイドル状態になり、ソフトウェアだけでは解決できない深刻なパフォーマンスボトルネックが発生します。
結果として生じるハードウェアジレンマは、2つの主要な物理的課題を提示します。すなわち、数千の並列接続にわたる高速伝送におけるシグナルインテグリティの維持と、クラスター内のすべてのプロセッサーを物理的にリンクするために必要な極めて高い接続密度の達成です。これら2つの課題の解決は、次世代AIハードウェアを設計するエンジニアにとって現在最優先事項となっています。
中核的LLMハードウェア要件
自己注意メカニズムによって生成される内部データトラフィックへの対処は、新世代の高速高密度インターコネクトにかかっています。これには、この激しいデータトラフィックから生じる2つの主要なエンジニアリング上の問題、すなわち接続密度とシグナルインテグリティに対処する物理層へのシステムレベルのアプローチが必要です。
第一の障害は、極めて高い接続密度を達成することです。レイテンシーを最小限に抑えるために、AIサーバーは、大量のGPUとアクセラレーターを1つのボードにできるだけ密接に配置し、多くの場合、メザニンカードを使用して垂直に構築する必要があります。これは大きな物理的課題を提示します。数千の高速並列接続を非常に小さなスペース内で実現する必要があり、従来のコネクター設計では限界に到達しています。
これと同じくらい重要な第二の課題が、シグナルインテグリティの維持です。次世代の速度では、従来のプリント回路基板(PCB)の長く損失の多いトレースを通じて高速信号を伝送すると、信号が大幅に劣化します。この信号劣化はビット誤りを引き起こし、接続の有効帯域幅を制限します。その結果、パフォーマンスボトルネックが生じ、データが基板を離れる前の時点ですでにプロセッサーの性能が損なわれる可能性があります。
密度とシグナルインテグリティの両方に対する堅牢なソリューションがなければ、AIクラスターのスケーラビリティは根本的に制限され、より大規模で強力なモデルのトレーニングが妨げられます。
LLMハードウェア要件向けインターコネクトソリューション
LLMの性能は、最終的にはハードウェアに依存します。タスクを定義するのはソフトウェアアーキテクチャですが、物理インターコネクトが実行の速度と効率を決定します。Molexは、LLMが生み出すシグナルインテグリティと密度の中核的課題に対処するために、深いエンジニアリング専門知識を活用しています。
この専門知識は、AIクラスター固有の要件に合わせて設計されたソリューションポートフォリオに反映されています。密度の課題に対処するため、Mirror Mezz Proコネクターは、スペースを最小限に抑えながら次世代速度に対応できる超高密度高速基板間ソリューションを提供します。シグナルインテグリティの課題を克服するために、CX2デュアルスピードコネクターおよびケーブルアセンブリーは、プロセッサーから他のコンポーネントへの直接バイパス接続を提供し、シグナルインテグリティを維持し、レイテンシーを低減します。これらのソリューションは、合わせて包括的なオンボード物理層戦略を形成します。これらは密度とシグナルインテグリティの両方の課題に対処し、AIクラスターの膨大な内部データフローをサポートし、LLMハードウェア要件を満たし現代の強力なAIクラスターを構築するために必要な物理ハードウェアを提供します。詳細については、AIおよび機械学習インフラストラクチャ向けのMolexソリューションをご覧ください。