「スーパーニックとは何ですか?」

『スーパーニックとはどのようなものですか?』

創造的なAIは、速変わりするデジタルランドスケープにおける最新のトレンドです。それを可能にする画期的な革新の1つが、比較的新しい用語である「スーパーニック」です。

スーパーニックとは何ですか?

スーパーニックは、イーサネットベースのクラウドにおいて、ハイパースケールのAIワークロードをスーパーチャージするために設計された新しいクラスのネットワークアクセラレータです。リモートダイレクトメモリアクセス(RDMA)を使用した収束したイーサネット(RoCE)技術を介して、GPU間通信のための高速ネットワーク接続を提供し、400Gb/sに達する速度を実現しています。

スーパーニックは、以下のユニークな特性を組み合わせています:

  • 高速パケット並べ替えを利用して、データパケットが元々送信された順序で受信および処理されるように保証します。これにより、データフローのシーケンシャルな整合性が維持されます。
  • リアルタイムテレメトリデータとネットワーク意識アルゴリズムを使用した高度な輻輳制御により、AIネットワークにおける輻輳を管理および予防します。
  • 入出力(I/O)パス上でのプログラマブルコンピューティングにより、AIクラウドデータセンターのネットワークインフラのカスタマイズと拡張が可能になります。
  • 制約された電力予算内でAIワークロードを効率的に処理するためのパワーエフィシェントで低プロファイルな設計。
  • コンピュート、ネットワーク、ストレージ、システムソフトウェア、通信ライブラリ、アプリケーションフレームワークなど、フルスタックのAI最適化。

NVIDIAは最近、AIコンピューティング向けに特化した世界初のスーパーニックを発表しました。それはBlueField-3ネットワーキングプラットフォームをベースにしています。これはNVIDIA Spectrum-Xプラットフォームの一部であり、Spectrum-4イーサネットスイッチシステムとシームレスに統合されています。

NVIDIA BlueField-3スーパーニックとSpectrum-4スイッチシステムは、AIワークロードを最適化するために特別に設計された高速コンピューティングファブリックの基盤を形成しています。Spectrum-Xは従来のイーサネット環境を凌駕する高いネットワーク効率を一貫して提供します。

「AIが次の技術革新の波を起こす世界では、BlueField-3スーパーニックは欠かせない要素です」と、NVIDIAのDPUおよびNIC製品担当副社長であるヤエル・シェンハブ氏は述べています。「スーパーニックは、効率と速度でAIワークロードを実行することを保証し、AIコンピューティングの未来を可能にする基盤的な要素です」。

AIとネットワーキングの進化するランドスケープ

AIの分野は、生成型AI大規模言語モデルの出現により、地殻変動を起こしています。これらの強力な技術は新たな可能性を開き、コンピュータが新たなタスクを処理できるようにしました。

AIの成功は、データ量の膨大さを処理し、大規模なAIモデルを訓練し、リアルタイム推論を可能にするためのGPUアクセラレーションされたコンピューティングに大きく依存しています。この新しいコンピュートパワーは新たな可能性を開いた一方で、イーサネットクラウドネットワークにも課題を与えました。

インターネットインフラの基盤となる従来のイーサネットは、広範な互換性を提供し、ゆるく結合されたアプリケーションを接続するために考案されました。それは、現代のAIワークロードの要求する厳密に結合された並列処理、迅速なデータ転送、独自の通信パターンの処理といった要件を処理するために設計されたものではありませんでした。

基礎となるネットワークインターフェースカード(NIC)は、汎用のコンピューティング、データ伝送および相互運用性を目的として設計されました。AIワークロードの計算的なインテンシティがもたらすユニークな課題に対応するためには、これらのNICには必要な機能や機能が欠けています。

一方で、スーパーニックは、現代のAIワークロードに特化して設計されたものです。

AIコンピューティング環境でのスーパーニックの利点

データ処理ユニット(DPU)には、高スループット、低レイテンシのネットワーク接続など、多くの先進的な機能が備わっています。2020年の導入以来、DPUsはクラウドコンピューティングの領域で人気を獲得しており、データセンターのインフラ処理をオフロード、高速化、分離することができる能力によります。

DPUsとスーパーニックは、さまざまな機能や能力を共有していますが、スーパーニックはAIのネットワークを加速するために特化して最適化されています。以下のチャートは、それらの比較を示しています。

NVIDIA BlueFieldスーパーニックとDPUの比較チャート

分散型AIトレーニングおよび推論の通信フローは、成功にはネットワーク帯域幅の可用性に大きく依存しています。スリックなデザインで特徴付けられるSuperNICは、DPUsよりも効果的にスケーリングし、GPUごとに印象的な400Gb/sのネットワーク帯域幅を提供します。

システム内のGPUとSuperNICの1:1の比率は、AIワークロードの効率を大幅に向上させ、企業にとって生産性が向上し、優れた結果をもたらすことがあります。

SuperNICの唯一の目的は、AIクラウドコンピューティングのネットワーキングを高速化することです。そのため、ホストCPUからアプリケーションをオフロードするためには、DPUよりも多くの計算リソースが必要とされるDPUとは異なり、それを達成するためにより少ない計算能力を必要とします。

削減された計算要件は、特に最大8つのSuperNICを含むシステムで重要な電力消費量の低下につながります。

SuperNICの追加の特徴には、専用のAIネットワーキング機能が含まれます。AI最適化されたNVIDIA Spectrum-4スイッチとの緊密な統合により、適応ルーティング、順不同パケット処理、最適化された輻輳制御を提供します。これらの高度な機能は、Ethernet AIクラウド環境を加速するのに役立ちます。

AIクラウドコンピューティングの革新

NVIDIA BlueField-3 SuperNICは、AI対応のインフラストラクチャに不可欠ないくつかの利点を提供します:

  • ピークAIワークロードの効率:BlueField-3 SuperNICは、ネットワーク集中型の大規模並列計算に特化しており、AIワークロードに最適です。ボトルネックなしでAIタスクが効率的に実行されることを保証します。
  • 一貫性と予測可能なパフォーマンス:複数のテナントのタスクが同時に処理されるマルチテナントデータセンターでは、BlueField-3 SuperNICは各ジョブとテナントのパフォーマンスを分離し、予測可能で他のネットワークアクティビティに影響を受けないようにします。
  • セキュアなマルチテナントクラウドインフラストラクチャ:データセンターでは、セキュリティが最優先事項です。BlueField-3 SuperNICは、データと処理を分離しながら複数のテナントが共存できるように高いセキュリティレベルを維持します。
  • 拡張可能なネットワークインフラストラクチャ:BlueField-3 SuperNICは、範囲に制約されずに非常に柔軟で様々なネットワークインフラストラクチャのニーズに適応します。
  • 幅広いサーバーメーカーのサポート:BlueField-3 SuperNICは、データセンターで過剰な電力消費をせずに、ほとんどのエンタープライズクラスのサーバーにシームレスに適合します。

NVIDIAのデータセンタープラットフォーム全体での統合方法を含む、NVIDIA BlueField-3 SuperNICについて詳しくは、ホワイトペーパー「次世代ネットワーキング:次世代AIのために」をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more