なぜGPUはAIに適しているのか

なぜGPUがAIに最適なのか?

GPUは人工知能の希少な地球の金属、さらには金そのものとも呼ばれています。それは、今日の生成的AI時代において基盤となる存在であるためです。それは3つの技術的理由と数多くのストーリーによって説明され、それぞれの理由には多くの側面がありますが、大まかに言えば次のようなものです。

  • GPUは並列処理を使用します。
  • GPUシステムはスーパーコンピュータの高さにまでスケールアップします。
  • AIのためのGPUソフトウェアスタックは幅広く深いです。

その結果、GPUはCPUよりも高速かつエネルギー効率が優れており、AIのトレーニングおよび推論においても優れたパフォーマンスを提供し、高速計算を使用するさまざまなアプリケーションにおいても利益をもたらします。

スタンフォード大学のヒューマンセンタードAIグループの最近のレポートによれば、GPUのパフォーマンスは「2003年以来約7000倍」向上し、価格性能比は「5600倍」増加していると報告されています。

GPUパフォーマンスの急激な向上を示すスタンフォードのレポート
2023年のレポートは、GPUのパフォーマンスと価格性能の急激な上昇を捉えています。

レポートはまた、AIの進展を測定し予測する独立系の研究グループであるエポックの分析も引用しています。

「GPUは、機械学習ワークロードを高速化するための主要なコンピューティングプラットフォームであり、過去5年間のほとんど(もしくはすべて)の最大のモデルがGPU上でトレーニングされています… それにより、AIの最近の進歩に重要な貢献をしています」とエポックはサイトで述べています

また、米国政府のためにAI技術を評価した2020年の研究も同様の結論を導いています。

「製造および運用コストを含めた場合、最先端のAIチップは生産性と運用コストをリーディングノードCPUよりも1〜3桁高いと予想されます」と述べています。

「NVIDIAのGPUは、過去10年間にAI推論のパフォーマンスを1000倍向上させました」と同社の首席科学者であるビル・デーリー氏は、半導体およびシステムエンジニアの年次集会であるHot Chipsの基調講演で述べています。

ChatGPTがニュースを広める

ChatGPTは、GPUがAIにとって優れたものであることを強力に示した例です。数千のNVIDIA GPUでトレーニングされ、実行される大規模な言語モデル(LLM)は、1億人以上の人々が利用する生成的AIサービスを提供しています。

その2018年のリリース以来、AIの業界標準ベンチマークであるMLPerfは、NVIDIA GPUのトレーニングおよび推論のリーディングパフォーマンスを詳細に示しています。

例えば、NVIDIA Grace Hopper Superchipsは最新の推論テストで圧倒的な成績を収めました。そのテスト以降にリリースされたNVIDIA TensorRT-LLM推論ソフトウェアは、パフォーマンスを最大8倍向上させ、エネルギー使用量と総所有コストを5倍以上削減します。実際、NVIDIA GPUは2019年のベンチマークリリース以降のすべてのMLPerfトレーニングおよび推論テストで優勝しています。

2月、NVIDIAのGPUは、金融サービス業界の重要な技術性能基準であるSTAC-ML Marketsベンチマークの最も要求の厳しいモデルで、秒間数千の推論を提供し、最先端の結果をもたらしました。詳細はこちら

RedHatのソフトウェアエンジニアリングチームは、このブログで簡潔に述べています。「GPUは人工知能の基盤となりました」と。

AIの内部構造

内部の構造を簡単に見てみると、GPUとAIの組み合わせがなぜ強力なのかがわかります。

AIモデル(ニューラルネットワークとも呼ばれる)は、基本的には数学的なラザニアであり、一つのデータが他のデータと関連している可能性を表す、一層一層の線形代数の方程式からなっています。

一方、GPUには数千のコアが搭載されており、AIモデルを構成する数学的な計算を並列に処理するために使用されます。大まかに言うと、これがAIの計算の仕組みです。

高度に調整されたテンソルコア

NVIDIAのエンジニアは、時間の経過とともにGPUコアをAIモデルの進化するニーズに合わせて調整してきました。最新のGPUには、マトリックスの数学的な演算を処理するための第1世代デザインに比べて60倍パワフルなテンソルコアが搭載されています。

さらに、NVIDIA Hopper Tensor Core GPUsには、トランスフォーマーエンジンが搭載されており、ジェネラティブAIの元となったニューラルネットワークの一種であるトランスフォーマーモデルを処理するために最適な精度に自動的に調整することができます。

それに伴い、各GPUの世代ではより多くのメモリが搭載され、AIモデル全体を単一のGPUまたは複数のGPUに格納するための最適化された技術が採用されています。

モデルの成長とシステムの拡大

AIモデルの複雑さは年間約10倍に増大しています。

最新のステートオブジアートであるLLM、GPT4は、数兆のパラメータを持つ、その数学的な密度を表す指標です。2018年に人気のあるLLMのパラメータは1億未満でしたが、現在はその10倍以上です。

グラフは、単一のGPUによるAI推論の10年間で1000倍のパフォーマンス向上を示しています
最近のHot Chipsでの講演で、NVIDIAの最高科学者であるビル・ダリー氏は、単一のGPUによるAI推論の性能が過去10年間で1000倍拡張されたことを説明しました。

GPUシステムは、この課題に対応するために拡大しています。それらは、高速なNVLinkインターコネクトとNVIDIA Quantum InfiniBandネットワークを備えて、スーパーコンピュータにスケールアップされます。

例えば、DGX GH200は、最大256個のNVIDIA GH200 Grace Hopper Superchipを単一のデータセンターサイズのGPUに組み合わせ、144テラバイトの共有メモリを実現する大容量AIスーパーコンピュータです。

各GH200スーパーチップは、72個のArm Neoverse CPUコアと4ペタフロップのAI性能を備えた単一のサーバです。新しい4ウェイのGrace Hopperシステム構成では、単一のコンピュートノードに288個のArmコアと16ペタフロップのAI性能、最大2.3テラバイトの高速メモリが搭載されます。

そして、NVIDIA H200 Tensor Core GPUsが11月に発表され、最新のHBM3eメモリ技術で最大288ギガバイトまで搭載されています。

ソフトウェアがあらゆる面に対応

2007年以来、GPUソフトウェアはAIのあらゆる側面を可能にするために進化し続けてきました。

NVIDIAのAIプラットフォームには数百ものソフトウェアライブラリやアプリが含まれています。CUDAプログラミング言語やディープラーニング向けのcuDNN-Xライブラリは、NVIDIA NeMoなどのソフトウェアを開発するための基盤となっています。これにより、ユーザーは独自の生成型AIモデルを構築、カスタマイズ、推論実行することができます。

これらの要素の多くはオープンソースソフトウェアとして利用可能であり、ソフトウェア開発者にとっての必須アイテムです。セキュリティとサポートを完全に必要とする企業向けには、NVIDIA AI Enterpriseプラットフォームに100以上の要素がパッケージ化されています。さらに、主要なクラウドサービスプロバイダーでは、NVIDIA DGX Cloud上のAPIやサービスとしても利用できます。

SteerLMは、NVIDIAの最新のAIソフトウェアのアップデートの1つであり、ユーザーは推論中にモデルを微調整することができます。

2008年には70倍の高速化

成功事例には、AIの先駆者であるアンドリュー・エン氏が2008年に発表した論文があります。当時はスタンフォードの研究者であった彼の3人チームは、NVIDIA GeForce GTX 280 GPUを2つ使用し、CPUで処理するよりも70倍高速化し、1億のパラメータを持つAIモデルの処理に数週間かかっていた作業を1日で完了させたのです。

彼らは「現代のグラフィックスプロセッサはマルチコアCPUの演算能力をはるかに超えており、ディープな非監督学習手法の適用範囲を革命的に変える可能性があります」と報告しました。

Andrew NgがGPUパフォーマンスについてのトークでスライドを示している写真
Andrew NgはGTC 2015のトークでGPUを使用したAIの経験について説明しました。

エン氏は、NVIDIA GTCで行われた2015年のトークで、より多くのGPUを使用して彼の研究をスケールアップし、Google BrainやBaiduでより大きなモデルを実行していたことを説明しました。その後、彼はCourseraというオンライン教育プラットフォームを共同設立し、数十万人のAI学生に教えました。

エン氏は、現代のAIの父の一人であるジェフ・ヒントンにも影響を与えたとしています。「CUDAを使って大きなニューラルネットワークを構築できると思って、ジェフ・ヒントンに言いに行ったのを覚えています」と彼はGTCのトークで述べています。

トロント大学の教授はこの情報を広めました。「2009年、NIPS(現在のNeurIPS)で講演をした記憶があります。約1,000人の研究者に対して、みんなGPUを買うべきだと言いました。なぜなら、GPUが機械学習の未来になるからです」とヒントン氏は報道記事で語っています。

GPUとともに高速化

AIの進歩は世界経済に波及することが予想されています。

6月のマッキンゼーの報告書によれば、ジェネラティブAIはバンキング、ヘルスケア、小売などの業界で年間2.6兆ドルから4.4兆ドルに相当する価値をもたらす可能性があると推定されています。そのため、スタンフォードの2023年のAI報告書は、多くのビジネスリーダーがAIへの投資を増やすことを期待していると述べています。

今日、4万社以上の企業がNVIDIAのGPUをAIや高速計算に利用しており、全世界の400万人の開発者が集まっています。彼らは科学、医療、金融、ほとんどの業界を進化させています。

最新の成果の中で、NVIDIAは、AIを使って二酸化炭素を大気から取り除くことで気候変動を緩和するという驚異的な700,000倍の高速化を説明しています(下のビデオをご覧ください)。これは、NVIDIAがGPUの性能をAIやその先に活用している方法の一つです。

詳しくは、GPUがAIを実践に生かす方法を学んでください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「埋め込みを使った10の素敵なこと!【パート1】」

「クラシックな機械学習(ML)から一歩踏み出して、埋め込みはほとんどのディープラーニング(DL)のユースケースの中核です...

機械学習

『トランスフォーマーの位置符号化の解説』

元のトランスフォーマーアーキテクチャでは、位置エンコーディングが入力と出力の埋め込みに追加されました位置エンコーディ...

機械学習

「P+にお会いしましょう:テキストから画像生成における拡張テキスト反転のための豊かな埋め込み空間」

テキストから画像の合成は、テキストのプロンプト記述から現実的な画像を生成するプロセスを指します。この技術は、人工知能...

機械学習

このAI論文は、実世界の網膜OCTスキャンを使用して、年齢に関連した黄斑変性の段階を分類するためのディープラーニングモデルを紹介しています

新しい研究論文では、網膜光干渉断層法(OCT)スキャンを使用した老年性黄斑変性(AMD)の段階に基づいたディープラーニング...

データサイエンス

「ジェンAIの時代:新たな始まり」

イントロダクション 急速に進化するテクノロジーの世界で、我々は新たな時代の予感に包まれています。それは、かつて人間にし...

機械学習

「大規模な言語モデルを使用した顧客調査フィードバック分析の強化」

はじめに 顧客フィードバック分析の世界へようこそ。顧客の意見の未探索の富は、ビジネスの成功を形作ることができます。今日...