AIデータ センターネットワークとは?
AIデータ センターネットワークとは?
AIデータ センターネットワークとは、AI(人工知能)を活用できるデータセンターネットワークファブリックを指します。AIおよび機械学習(ML)ワークロードに求められる厳格なネットワーク拡張性、パフォーマンス、低遅延要件をサポートするもので、これらの要件はAIトレーニング段階で特に厳しくなります。
初期の高性能コンピューティング(HPC)とAIトレーニングネットワークでは、高速で低遅延な独自のネットワーク技術であるInfiniBandが、サーバーとストレージシステム間をつなぐ高速で効率的な通信方法として人気を博しました。今日の、これに代わるオープンな手段はイーサネットです。イーサネットは、AIデータ センターネットワーク市場で大きな支持を得ており、主要な技術となることが予想されます。
イーサネットの導入が増加している理由は複数ありますが、運用面とコスト面が特に際立っています。イーサネットを構築および運用できるネットワーク専門家の人材プールは、独自のInfiniBandネットワークと比べて膨大であり、主にNvidiaを通さなければならないInfiniBand技術と比べて、イーサネットネットワークを管理するためのツールも幅広くあります。
AIデータ センターネットワークで対応できるAIドリブン要件とは?
生成AIが変革を起こす技術であることは、世界中で証明されています。生成AIと大規模なディープラーニングAIモデルなどによって、AIデータ センターネットワークに新たな要件がもたらされています。AIモデルの開発には、3つのフェーズがあります。
- フェーズ1:データ準備–AIモデルに供給するデータセットを収集および厳選します。
- フェーズ2:AIトレーニング–AIモデルを大量のデータに晒すことで、特定のタスクを実行できるようにAIモデルを学習させます。このフェーズでは、AIモデルはトレーニングデータ内のパターンと関係性を学習し、インテリジェンスを模倣するための仮想シナプスを開発します。
- フェーズ3:AI推論–現実環境で動作し、新たな目に見えないデータに基づいて予測または決定を行います。
フェーズ3は、通常、既存のデータセンターやクラウドネットワークでサポートされます。ただし、フェーズ2(AIトレーニング)では、AIモデルが継続的に収集されたデータから学習してパラメータを絞り込むという反復プロセスをサポートするために、広範なデータと計算リソースが必要になります。グラフィック処理ユニット(GPU)は、AI学習と推論ワークロードに適していますが、効率性を高めるために、クラスターで動作させる必要があります。クラスターを拡張すると、AIモデルの効率性が向上しますが同時にコストも増加します。このため、クラスターの効率性を阻害しないAIデータ センターネットワークを使用することが重要となります。
大規模なモデルをトレーニングするためには、数万台におよぶ多数のGPUサーバー(2023年にはサーバーあたり40万ドルを超えるコスト)を接続する必要があります。このため、ジョブ完了までにかかる時間を最適化し、テール遅延(異常値のAIワークロードがAIジョブ全体の完了を遅らせる状態)を最小化または排除することが、GPUへの投資に対する収益率を最適化するための鍵となります。このユースケースでは、AIデータセンターネットワークの信頼性が100%であり、クラスターに効率性の低下が一切生じない必要があります。
AIデータ センターネットワークはどのように機能しますか?
通常、高価なGPUサーバーによって、AIデータ センター全体のコストも高くなりますが、GPUの使用率を最大化するには高性能ネットワークが必要となるため、AIデータ センターネットワークが不可欠となります。イーサネットは、AI向けに強化されたデータ センターネットワークアーキテクチャに展開されるこのソリューションを提供するのに最も適したオープンで実績のある技術です。機能強化には、混雑管理、ロードバランシング、およびジョブ完了までにかかる時間(JCT)を最適化するための遅延の最小化が含まれます。また、管理と自動化を簡略化することで、信頼性と継続的なパフォーマンスが保証されます。
ファブリック設計
AIデータ センターネットワークでは、さまざまなファブリック設計を使用することができますが、トレーニングフレームワークを最適化するには、any-to-anyのノンブロッキングのClosファブリックを使用することをお勧めします。これらのファブリックは、NICからリーフ、スパインにいたるまで、400Gbpsの一貫したネットワーク速度(800Gbpsに移行しつつあります)で構築されています。モデルサイズとGPUスケールに応じて、2層3段のノンブロッキングファブリック、または3層5段のノンブロッキングファブリックを使用することができます。
フロー制御と混雑の回避
ファブリック容量に加えて、設計上の考慮事項もさらに検討することで、ファブリック全体の信頼性と効率性が向上します。考慮事項としては、最適なリンク数を持つ適切なサイズのファブリック相互接続や、混雑やパケットロスを回避するために、フローの不均衡を検出し修正する能力などがあります。ECN(Explicit Congestion Notification)と Data Center Quantized Congestion Notification(DCQCN)、さらに優先度ベースのフロー制御によってフローの不均衡を解消し、ロスレス伝送を確保します。
混雑を軽減するために、スイッチでは動的な適応型ロードバランシングが展開されます。動的なロードバランシングが、スイッチでフローをローカルに再分配し、均等に配布します。適応型ロードバランシングはフローフォワーディングとネクストホップテーブルを監視して、不均衡があれば識別し、トラフィックを混雑したパスから遠ざけます。
混雑が回避されない場合には、ECNからアプリケーションに早期通知が送られます。この期間中に、リーフとスパインはECN対応パケットを更新して送信者に混雑を通知します。通知を受けた送信元は、送信中のパケットのドロップを回避するために送信速度を落とします。エンドポイントの反応が間に合わない場合、優先度に基づくフロー制御(PFC)により、イーサネットの受信側は、バッファの可用性に関するフィードバックを送信元と共有することができます。また、混雑期間中、リーフとスパインは特定のリンクのトラフィックを一時停止またはスロットルすることで、混雑を軽減してパケットのドロップを回避し、特定のトラフィッククラスのロスレス送信を可能にすることができます。
拡張性とパフォーマンス
イーサネットは、高性能コンピューティングやAIアプリケーションの厳しい要件に応えるための、オープン基準のソリューションとして登場しました。時間の経過とともに進化し(現在の800GbEとデータセンターブリッジング(DCB)への移行も含め)、速度、信頼性、拡張性も向上しており、ミッションクリティカルなAIアプリケーションに必要とされる高いデータスループットと低遅延の要件に対応できる最良の選択肢となっています。
自動化
効果的なAIデータ センターネットワークソリューションの最後の要素となるのが自動化ですが、すべての自動化が同じというわけではありません。価値を最大限に発揮するためには、自動化ソフトウェアがエクスペリエンスファースト運用を提供するものである必要があります。AIデータセンターの設計、導入、管理に継続的に使用されます。AIデータセンターのネットワークライフサイクルを、Day 0からDay 2以降にわたって自動化および検証します。これにより、反復可能で、継続的に検証可能なAIデータセンターの設計と導入が可能になり、人為的なエラーが除去されるだけでなく、テレメトリとフローデータを活用してパフォーマンスを最適化し、事前対応型のトラブルシューティングを促進して、停止を回避することができます。
数十年にわたるネットワークエクスペリエンスとAIOpsのイノベーションに基づいて構築されたジュニパーAIデータ センターネットワークソリューション
ジュニパーのAIデータ センターネットワークソリューションは、数十年にわたるネットワーキングエクスペリエンスとAIOpsのイノベーションに基づいて構築されており、オープンで高速、かつ管理が簡単なイーサネットベースのAIネットワーキングソリューションを完成させています。このように大容量で拡張性が高く、ノンブロッキングのファブリックは、AIパフォーマンスを非常に高くし、ジョブ完了までにかかる時間を最短化し、GPU使用率を極めて効率的にします。ジュニパーAIデータ センターネットワークソリューションは、次の3つの基本的なアーキテクチャの柱を活用しています。
- 大幅に拡張可能なパフォーマンス–ジョブ完了までにかかる時間を最適化して、GPUを効率化
- 業界標準に対するオープン性–イノベーションを促進し、長期的なコスト削減を推進する業界主導のエコシステムで、既存のデータセンター技術を拡張
- エクスペリエンスファースト運用–バックエンド、フロントエンド、ストレージファブリックにおいて、AIデータセンターの設計、導入および運用を自動化して簡素化
これらの柱は、以下によってサポートされています。
- any-to-anyのノンブロッキングのCloファブリックを活用した、大容量でロスレスなAIデータセンターネットワーク設計、AIトレーニングのフレームワークを最適化するための最も汎用性の高いトポロジー
- スパイン/スーパースパインにJuniper Express Siliconを採用したジュニパーPTXシリーズルーターを含めた高性能スイッチとルーター、および、AIサーバー接続を提供するリーフスイッチにBroadcomのTomahawk ASICを採用しているQFXシリーズスイッチ
- フロー制御と衝突回避によるファブリックの効率性
- オープンな、スタンダードベースの800GbEイーサネット拡張性とパフォーマンス
- Juniper Apstra®インテントベースネットワーク構築ソフトウェアを使用した広範な自動化により、AIデータセンターのネットワークライフサイクルをDay 0からDay 2以降にわたって自動化および検証
AIデータ センターネットワークに関する良くある質問
AIデータ センターネットワークで解決される問題とは何ですか?
AIデータ センターネットワークは、生成AIモデルと大規模なディープラーニングAIモデル全般のパフォーマンス要件を解決します。特にAIトレーニングでは、AIモデルが継続的に収集されたデータから学習してパラメータを絞り込むという反復プロセスをサポートするために、広範なデータと計算リソースが必要になります。グラフィック処理ユニット(GPU)は、AI学習と推論ワークロードに適していますが、効率性を高めるために、クラスターで動作させる必要があります。クラスターを拡張すると、AIモデルの効率性が向上しますが同時にコストも増加します。このため、クラスターの効率性を阻害しないAIデータ センターネットワークを使用することが重要となります。
大規模なモデルをトレーニングするためには、数万台におよぶGPUサーバー(2023年にはサーバーあたり40万ドルを超えるコスト)を接続する必要があります。このため、ジョブ完了までにかかる時間を最大限に活用し、テール遅延(異常値のAIワークロードがAIジョブ全体の完了を遅らせる状態)を最小化または排除することが、GPUへの投資に対する収益率を最適化するための鍵となります。このユースケースでは、AIデータセンターネットワークの信頼性が100%であり、クラスターに効率性の低下が一切生じない必要があります。
AIデータ センターネットワークにおいて、InfiniBandと比べた場合のイーサネットのメリットは何ですか?
初期の高性能コンピューティング(HPC)とAIトレーニングネットワークでは、高速で低遅延な独自のネットワーク技術であるInfiniBandが、サーバーとストレージシステム間をつなぐ高速で効率的な通信方法として人気を博しました。今日の、これに代わるオープンな手段はイーサネットです。イーサネットは、現代のAIデータ センターネットワーク市場で大きな支持を得ており、主要な技術となることが予想されます。
InfiniBandのような独自の技術は進歩とイノベーションをもたらす技術ですが、コストが高く、競争力のある需給市場でコストを調整できない場合には非常に高価なものになります。さらに、イーサネットを構築および運用できるネットワーク専門家の人材プールは、独自のInfiniBandネットワークと比べて膨大であり、主にNvidiaを通さなければならないInfiniBand技術と比べて、イーサネットネットワークを管理するためのツールも幅広くあります。
イーサネットは、IPに次ぐ世界で最も広く採用されているネットワーク技術です。イーサネットの高速性、信頼性、拡張性は進化しており、AIアプリケーションに必要とされる高データスループットと低遅延に対する要件に対応するための有効な選択肢となっています。800 GbEへの進展とデータセンターブリッジング(DCB)イーサネットの強化により、大容量で低遅延、ロスレスなデータ伝送が可能になったことで、イーサネットファブリックは、優先度の高い、ミッションクリティカルなAIトラフィックに非常に適したものになっています。
ジュニパーが提供するAIデータ センターネットワークソリューション/製品/技術とは何ですか?
ジュニパーのAIデータ センターネットワークソリューションでは、any-to-anyのノンブロッキングのCloファブリックを採用することで、大容量でロスレスのAIデータセンターネットワーク設計を提供しています。このCloファブリックは、AIトレーニングフレームワークを最適化するための最も汎用性の高いトポロジーです。このソリューションでは、高性能でオープンなスタンダードベースのイーサネットスイッチと、最大800GbEのインターフェースを備えたルーターを活用しています。さらに、Juniper Apstra インテントベースネットワーク構築ソフトウェアを使用することで、Day 0からDay 2以降にわたるAIデータセンターのネットワークライフサイクルを自動化して検証します。