テストに合格する:NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

合格を勝ち取る:NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニンクを超加速します

NVIDIAのAIプラットフォームは、最新のMLPerf業界ベンチマークにおいて、AIトレーニングとハイパフォーマンスコンピューティングの基準を引き上げました。

多くの新記録やマイルストーンの中で、ジェネラティブAIの分野で特に注目されているのは、NVIDIA Eosです。これは、驚異的な10752基のNVIDIA H100 Tensor Core GPUとNVIDIA Quantum-2 InfiniBandネットワーキングを搭載したAIスーパーコンピュータで、GPT-3モデルに基づいた1750億個のパラメータを持つ1億トークンのトレーニングベンチマークをたったの3.9分で完了しました。

これは、約3倍の速さで、NVIDIAがわずか6か月前に記録した10.9分を大幅に上回るものです。

MLPerfベンチマーク上でのNVIDIA H100トレーニング結果の推移

このベンチマークは、人気のChatGPTサービスのフルGPT-3データセットの一部を使用しており、推定によれば、Eosはたった8日間でトレーニングを完了させることができます。これは、512基のA100 GPUを使用した従来の最先端システムに比べて73倍高速です。

トレーニング時間の短縮は、コスト削減、エネルギー節約、およびマーケット投入までの時間短縮につながります。大規模な言語モデルを広く利用できるようにする重要な取り組みであり、NVIDIA NeMoといったツールを使用して、すべての企業がカスタマイズ可能なLLMを採用できるようにしています。

今回の新しいジェネラティブAIのテストでは、1024基のNVIDIA HopperアーキテクチャGPUが、2.5分でStable Diffusion text-to-imageモデルに基づいたトレーニングベンチマークを完了し、この新たなワークロードにおいてハイバーな成績を収めました。

これらの二つのテストを採用することで、MLPerfはAIのパフォーマンスを測定する業界の標準としてのリーダーシップを強化しており、ジェネラティブAIが現在の私たちの時代で最も変革的な技術であることを裏付けています。

システムの拡張が飛躍

今回の最新の結果は、MLPerfベンチマークに適用されたアクセラレータがこれまでで最も多く使用されたことによるものです。10752基のH100 GPUは、今年6月のAIトレーニングでNVIDIAが使用した3584基のHopper GPUを大幅に上回りました。

GPU数の3倍のスケーリングが、パフォーマンスの2.8倍のスケーリングをもたらしたことで、ソフトウェアの最適化にも一部助けられ、93%の効率率を実現しました。

効率的なスケーリングは、ジェネラティブAIにおいて重要な要件です。なぜなら、LLMは毎年桁違いに成長しているからです。最新の結果は、NVIDIAが世界最大級のデータセンターにおいてさえこの前例のない課題に対応できる能力を持っていることを示しています。

MLPerfトレーニングでのH100 GPUのほぼ直線スケーリングのグラフ

これらの成果は、アクセラレータ、システム、ソフトウェアのフルスタックプラットフォームの革新によるものであり、最新ラウンドでEosとMicrosoft Azureの両方が使用しました。

EosとAzureは、別々の提出で10,752台のH100 GPUを使用しました。両者は同じ性能の2%以内を達成し、NVIDIA AIのデータセンターおよびパブリッククラウド展開の効率を示しました。

MLPerfトレーニングにおけるAzureの記録的なスケーリングのチャート

NVIDIAは、Eosをさまざまな重要な業務に依存しています。それは、最先端のコンピューターグラフィックスのためのAIパワードソフトウェアであるNVIDIA DLSSや、次世代のGPUを設計するのに役立つChipNeMoなどのNVIDIA Researchのプロジェクトを進めるのに役立ちます。

ワークロード全体の進展

NVIDIAは、生成AIにおいても進展を遂げたほか、今回のラウンドでいくつかの新記録を樹立しました。

たとえば、H100 GPUは、オンラインでユーザーが求めているものを見つけるのに広く使用されている前回のトレーニング推薦モデルよりも1.6倍高速でした。コンピュータービジョンモデルであるRetinaNetでは、性能が1.8倍向上しました。

これらの増加は、ソフトウェアの進展とスケールアップしたハードウェアの組み合わせによるものです。

NVIDIAは再び、すべてのMLPerfテストを実行した唯一の企業でした。H100 GPUは、9つのベンチマークのそれぞれで最速の性能と最大のスケーリングを実証しました。

MLPerfトレーニングにおけるNVIDIAの新記録のリスト

スピードアップは、大規模なLLMのトレーニングやビジネスの特定のニーズに合わせてNeMoなどのフレームワークを使用してカスタマイズするユーザーにとって、市場投入までの時間短縮、コスト削減、エネルギー節約につながります。

このラウンドで、ASUS、Dell Technologies、Fujitsu、GIGABYTE、Lenovo、QCT、Supermicroなど11のシステムメーカーがNVIDIA AIプラットフォームを使用しました。

NVIDIAのパートナーは、AIプラットフォームとベンダーを評価する顧客にとって価値あるツールであることを知っているため、MLPerfに参加しています。

HPCベンチマークの拡張

MLPerf HPCでは、スーパーコンピューター上でのAI支援シミュレーションのための別のベンチマークとして、H100 GPUはNVIDIA A100 Tensor Core GPUの最大2倍のパフォーマンスを実現しました。前回のHPCラウンドでは、初回のMLPerf HPCラウンドから最大16倍の進化が示されました。

このベンチマークには、アミノ酸の配列からタンパク質の3D構造を予測するOpenFoldというモデルをトレーニングする新しいテストが含まれています。OpenFoldは、以前は研究者が数週間または数か月かかっていた医療に重要な仕事を数分で行うことができます。

タンパク質の構造を理解することは、多くの生物学的プロセスを制御する細胞の機械であるタンパク質に作用する薬剤を効果的に見つけるための鍵です。

MLPerf HPCテストでは、H100 GPUがOpenFoldを7.5分でトレーニングしました。OpenFoldテストは、2年前に128のアクセラレータを使用して11日かかったAlphaFoldトレーニングプロセス全体の代表的な部分です。

OpenFoldモデルのバージョンと、それをトレーニングするためにNVIDIAが使用したソフトウェアは、まもなく薬物探索のためのNVIDIA BioNeMoという生成AIプラットフォームで利用できるようになります。

このラウンドでは、Dell TechnologiesとClemson University、Texas Advanced Computing Center、およびHewlett Packard Enterprise (HPE)の協力を得てLawrence Berkeley National Laboratoryが、NVIDIA AIプラットフォームに関するいくつかの提出を行いました。

幅広い支持を受けるベンチマーク

2018年5月の創設以来、MLPerfベンチマークは、産業界と学界の両方から広範な支持を受けています。これを支持する組織には、Amazon、Arm、Baidu、Google、Harvard、HPE、Intel、Lenovo、Meta、Microsoft、NVIDIA、Stanford University、そしてUniversity of Torontoなどが含まれます。

MLPerfテストは透明性があり客観的であるため、ユーザーは結果に頼って情報を得て購買意思決定をすることができます。

すべてのソフトウェアは、使用したものがNVIDIAのMLPerfリポジトリから入手可能ですので、どんな開発者でも同じ世界クラスの結果を得ることができます。これらのソフトウェアの最適化は、GPUアプリケーションのためのNVIDIAのソフトウェアハブであるNGCで利用可能なコンテナに継続的に組み込まれています。

MLPerfの詳細や詳細について詳しく学びましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...

データサイエンス

Rendered.aiは、合成データの生成にNVIDIA Omniverseを統合します

Rendered.aiは、プラットフォームとして提供される合成データ生成(SDG)により、開発者、データサイエンティスト、その他の...

AI研究

「地震をAIで把握する:研究者が深層学習モデルを公開、予測の精度を向上」

研究チームは地震モデルの現状を変革しようとしています。 カリフォルニア大学バークレー校、カリフォルニア大学サンタクルー...

機械学習

govGPT チャットボットによる市民体験の向上

この記事では、現在の市民体験に関連するいくつかの問題について議論し、LLMベースのチャットボットがその不備を解決できるこ...

人工知能

「ジェンAI愛好家が読むべき5冊の本」

イントロダクション 技術がますます進化する中、人工知能(AI)の領域は拡大するだけでなく、ジェネラティブAIという様々なサ...

人工知能

サイバーセキュリティにおいてAIを活用して人間を補完する

セキュリティを加速するためにAIを使用する利点がありますしかし、完全な自動化には人間の洞察力が必要です人間の創造力と機...