テストに合格する：NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

合格を勝ち取る：NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニンクを超加速します

NVIDIAのAIプラットフォームは、最新のMLPerf業界ベンチマークにおいて、AIトレーニングとハイパフォーマンスコンピューティングの基準を引き上げました。

多くの新記録やマイルストーンの中で、ジェネラティブAIの分野で特に注目されているのは、NVIDIA Eosです。これは、驚異的な10752基のNVIDIA H100 Tensor Core GPUとNVIDIA Quantum-2 InfiniBandネットワーキングを搭載したAIスーパーコンピュータで、GPT-3モデルに基づいた1750億個のパラメータを持つ1億トークンのトレーニングベンチマークをたったの3.9分で完了しました。

これは、約3倍の速さで、NVIDIAがわずか6か月前に記録した10.9分を大幅に上回るものです。

MLPerfベンチマーク上でのNVIDIA H100トレーニング結果の推移

このベンチマークは、人気のChatGPTサービスのフルGPT-3データセットの一部を使用しており、推定によれば、Eosはたった8日間でトレーニングを完了させることができます。これは、512基のA100 GPUを使用した従来の最先端システムに比べて73倍高速です。

トレーニング時間の短縮は、コスト削減、エネルギー節約、およびマーケット投入までの時間短縮につながります。大規模な言語モデルを広く利用できるようにする重要な取り組みであり、NVIDIA NeMoといったツールを使用して、すべての企業がカスタマイズ可能なLLMを採用できるようにしています。

今回の新しいジェネラティブAIのテストでは、1024基のNVIDIA HopperアーキテクチャGPUが、2.5分でStable Diffusion text-to-imageモデルに基づいたトレーニングベンチマークを完了し、この新たなワークロードにおいてハイバーな成績を収めました。

これらの二つのテストを採用することで、MLPerfはAIのパフォーマンスを測定する業界の標準としてのリーダーシップを強化しており、ジェネラティブAIが現在の私たちの時代で最も変革的な技術であることを裏付けています。

システムの拡張が飛躍

今回の最新の結果は、MLPerfベンチマークに適用されたアクセラレータがこれまでで最も多く使用されたことによるものです。10752基のH100 GPUは、今年6月のAIトレーニングでNVIDIAが使用した3584基のHopper GPUを大幅に上回りました。

GPU数の3倍のスケーリングが、パフォーマンスの2.8倍のスケーリングをもたらしたことで、ソフトウェアの最適化にも一部助けられ、93%の効率率を実現しました。

効率的なスケーリングは、ジェネラティブAIにおいて重要な要件です。なぜなら、LLMは毎年桁違いに成長しているからです。最新の結果は、NVIDIAが世界最大級のデータセンターにおいてさえこの前例のない課題に対応できる能力を持っていることを示しています。

MLPerfトレーニングでのH100 GPUのほぼ直線スケーリングのグラフ

これらの成果は、アクセラレータ、システム、ソフトウェアのフルスタックプラットフォームの革新によるものであり、最新ラウンドでEosとMicrosoft Azureの両方が使用しました。

EosとAzureは、別々の提出で10,752台のH100 GPUを使用しました。両者は同じ性能の2%以内を達成し、NVIDIA AIのデータセンターおよびパブリッククラウド展開の効率を示しました。

MLPerfトレーニングにおけるAzureの記録的なスケーリングのチャート

NVIDIAは、Eosをさまざまな重要な業務に依存しています。それは、最先端のコンピューターグラフィックスのためのAIパワードソフトウェアであるNVIDIA DLSSや、次世代のGPUを設計するのに役立つChipNeMoなどのNVIDIA Researchのプロジェクトを進めるのに役立ちます。

ワークロード全体の進展

NVIDIAは、生成AIにおいても進展を遂げたほか、今回のラウンドでいくつかの新記録を樹立しました。

たとえば、H100 GPUは、オンラインでユーザーが求めているものを見つけるのに広く使用されている前回のトレーニング推薦モデルよりも1.6倍高速でした。コンピュータービジョンモデルであるRetinaNetでは、性能が1.8倍向上しました。

これらの増加は、ソフトウェアの進展とスケールアップしたハードウェアの組み合わせによるものです。

NVIDIAは再び、すべてのMLPerfテストを実行した唯一の企業でした。H100 GPUは、9つのベンチマークのそれぞれで最速の性能と最大のスケーリングを実証しました。

MLPerfトレーニングにおけるNVIDIAの新記録のリスト

スピードアップは、大規模なLLMのトレーニングやビジネスの特定のニーズに合わせてNeMoなどのフレームワークを使用してカスタマイズするユーザーにとって、市場投入までの時間短縮、コスト削減、エネルギー節約につながります。

このラウンドで、ASUS、Dell Technologies、Fujitsu、GIGABYTE、Lenovo、QCT、Supermicroなど11のシステムメーカーがNVIDIA AIプラットフォームを使用しました。

NVIDIAのパートナーは、AIプラットフォームとベンダーを評価する顧客にとって価値あるツールであることを知っているため、MLPerfに参加しています。

HPCベンチマークの拡張

MLPerf HPCでは、スーパーコンピューター上でのAI支援シミュレーションのための別のベンチマークとして、H100 GPUはNVIDIA A100 Tensor Core GPUの最大2倍のパフォーマンスを実現しました。前回のHPCラウンドでは、初回のMLPerf HPCラウンドから最大16倍の進化が示されました。

このベンチマークには、アミノ酸の配列からタンパク質の3D構造を予測するOpenFoldというモデルをトレーニングする新しいテストが含まれています。OpenFoldは、以前は研究者が数週間または数か月かかっていた医療に重要な仕事を数分で行うことができます。

タンパク質の構造を理解することは、多くの生物学的プロセスを制御する細胞の機械であるタンパク質に作用する薬剤を効果的に見つけるための鍵です。

MLPerf HPCテストでは、H100 GPUがOpenFoldを7.5分でトレーニングしました。OpenFoldテストは、2年前に128のアクセラレータを使用して11日かかったAlphaFoldトレーニングプロセス全体の代表的な部分です。

OpenFoldモデルのバージョンと、それをトレーニングするためにNVIDIAが使用したソフトウェアは、まもなく薬物探索のためのNVIDIA BioNeMoという生成AIプラットフォームで利用できるようになります。

このラウンドでは、Dell TechnologiesとClemson University、Texas Advanced Computing Center、およびHewlett Packard Enterprise (HPE)の協力を得てLawrence Berkeley National Laboratoryが、NVIDIA AIプラットフォームに関するいくつかの提出を行いました。

幅広い支持を受けるベンチマーク

2018年5月の創設以来、MLPerfベンチマークは、産業界と学界の両方から広範な支持を受けています。これを支持する組織には、Amazon、Arm、Baidu、Google、Harvard、HPE、Intel、Lenovo、Meta、Microsoft、NVIDIA、Stanford University、そしてUniversity of Torontoなどが含まれます。

MLPerfテストは透明性があり客観的であるため、ユーザーは結果に頼って情報を得て購買意思決定をすることができます。

すべてのソフトウェアは、使用したものがNVIDIAのMLPerfリポジトリから入手可能ですので、どんな開発者でも同じ世界クラスの結果を得ることができます。これらのソフトウェアの最適化は、GPUアプリケーションのためのNVIDIAのソフトウェアハブであるNGCで利用可能なコンテナに継続的に組み込まれています。

MLPerfの詳細や詳細について詳しく学びましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceCloud ServicesDeep learningGenerative AIGenomicshardware

Was this article helpful?

93 out of 132 found this helpful

テストに合格する：NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

システムの拡張が飛躍

ワークロード全体の進展

HPCベンチマークの拡張

幅広い支持を受けるベンチマーク

Was this article helpful?

ハリソン.aiのCEOであるエンガス・トラン博士による、健康チェックにAIをスペルチェックとして使用することについての記事

2024年に注目すべきAIを活用したヘルスケア業界のトップ8企業

機械学習

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

「このAIニュースレターはあなたが必要とするもの全てです #69」

「APIガバナンスによるAIインフラストラクチャのコスト削減」

「UCLA研究者がGedankenNetを紹介：物理法則や思考実験から学ぶ自己教示AIモデルが計算機画像処理を進化させる」

「Jaro-Winklerアルゴリズムを使用して小規模言語モデル（SLM）を構築し、スペルエラーを改善・強化する」

チューリッヒ大学の研究者たちは、スイフトという自律型ビジョンベースのドローンを開発しましたこのドローンは、いくつかの公平なヘッドトゥヘッドレースで人間の世界チャンピオンに勝つことができます