「生成AIの未来はエッジです」

「生成AIの未来は最先端にあります」

ChatGPTの登場と一般的な生成型AIは、技術の歴史において画期的な瞬間であり、インターネットやスマートフォンの誕生と同様に評価されています。生成型AIは、知的な対話を行ったり、試験に合格したり、複雑なプログラム/コードを生成したり、魅力的な画像や動画を作成したりする能力において、限りない可能性を示しています。一般的に、クラウドでGPUがGen AIモデルのほとんどを動かしますが(トレーニングおよび推論の両方において)、これは特に推論においては長期的にはスケーラブルな解決策ではありません。原因としては、コスト、電力、レイテンシ、プライバシー、セキュリティなどの要素があります。本記事では、これらの要素と具体的な例を挙げながら、Gen AIの計算ワークロードをエッジに移行する動機を探ります。

ほとんどのアプリケーションはハイパフォーマンスプロセッサ上で実行されます――デバイス上(スマートフォン、デスクトップ、ノートパソコンなど)またはデータセンター上。AIを利用するアプリケーションの割合が増えるにつれて、これらのCPUだけのプロセッサは不十分です。さらに、生成型AIのワークロードの急速な拡大により、高価で消費電力の高いGPUを搭載したAI対応サーバーへの需要が急増しており、インフラストラクチャのコストも上昇しています。これらのAI対応サーバーは、通常のサーバーの価格の7倍以上かかることもあり、その80%がGPUの追加コストに費やされます。

さらに、クラウドベースのサーバーでは500Wから2000Wの電力を消費しますが、AI対応サーバーは2000Wから8000Wの電力を消費します。そのため、これらのサーバーをサポートするためには、データセンターに追加の冷却モジュールとインフラストラクチャのアップグレードが必要となります。既にデータセンターは年間300 TWHの電力を消費しており、2023年までに世界全体の電力消費量のほぼ1%を占めることが予測されています。AIの採用の傾向が続く場合、2030年までには世界全体の電力の5%がデータセンターによって消費される可能性があります。さらに、生成型AIデータセンターへの前例のない投資も行われています。AIインフラストラクチャの要件を主な要因として、2027年までにデータセンターには5000億ドル以上が投資されると推定されています。

既に300 TWHのデータセンターの電力消費は、生成型AIの採用に伴い大幅に増加するでしょう。

AIの計算コストやエネルギー消費は、生成型AIの大規模な採用を妨げるでしょう。スケーリングの課題は、AIのコンピューティングをエッジに移行し、AIワークロードに最適化された処理ソリューションを使用することで克服することができます。このアプローチにより、レイテンシ、プライバシー、信頼性、さらなる能力の向上など、顧客にも他の利点がもたらされます。

データに合わせてコンピューティングもエッジへ

AIが10年前に学術界から現れて以来、AIモデルのトレーニングと推論はクラウド/データセンターで行われてきました。データの大部分がエッジで生成および消費されている(特にビデオ)ため、データの推論をエッジに移動することは、ネットワークおよびコンピュートのコスト削減により、エンタープライズの総所有コスト(TCO)の向上につながるため、理にかなっています。クラウド上のAI推論コストは継続的ですが、エッジでの推論のコストは一度限りのハードウェア費用です。基本的に、エッジAIプロセッサをシステムに追加することで、全体的な運用コストを低減することができます。従来のAIワークロードのエッジへの移行(例:アプライアンス、デバイス)と同様に、生成型AIワークロードもそれに続きます。これにより、企業と消費者に大きな節約がもたらされます。

エッジへの移行に加え、効率的なAIアクセラレータを使用して推論機能を実行することで、他の利点も得られます。その中でも、レイテンシは特に重要です。たとえば、ゲームのアプリケーションでは、生成型AIを使用して非プレイヤーキャラクター(NPC)を制御および拡張できます。ゲームコンソールやPCで動作するLLMモデルを使用して、ゲーマーはこれらのキャラクターに特定の目標を与えることができます。これにより、NPCの音声や動作がプレイヤーのコマンドやアクションにリアルタイムで応答します。これにより、コスト効果的で省電力な方法で非常に没入型のゲーム体験が実現されます。

医療などのアプリケーションでは、プライバシーと信頼性が非常に重要です(例:患者評価、薬の推奨)。データと関連するGen AIモデルはオンプレミスに配置され、患者データの保護(プライバシー)やクラウド上のAIモデルへのアクセスブロックが発生した場合のネットワーク障害を回避することができます。エッジAIアプライアンスは、各エンタープライズ顧客向けに目的に合わせて作られたGen AIモデルを実行することで、プライバシーや信頼性の問題をシームレスに解決し、レイテンシとコストの低減を実現します。

エッジデバイスでの生成AIは、ゲーミングにおいて低遅延を確保し、医療での患者データを保護し、信頼性を向上させます。

クラウド上で実行される多くのGen AIモデルは、兆パラメータに近いものがあります。これらのモデルは一般的なクエリに効果的に対応できます。ただし、エンタープライズ固有のアプリケーションでは、ユースケースに関連した結果を提供するために、モデルが必要です。たとえば、ファストフード店で注文を受けるために構築されたGen AIベースのアシスタントの例を取ります。このシステムがシームレスな顧客対応を行うためには、基礎となるGen AIモデルがレストランのメニューアイテムやアレルゲンおよび成分についてトレーニングされている必要があります。モデルのサイズは、スーパーセットの大規模言語モデル(LLM)を使用して、比較的小さな10-30兆パラメータのLLMをトレーニングし、さらにカスタマー固有のデータで追加の微調整を行うことで最適化できます。このようなモデルは、増加した精度と機能性で結果を提供することができます。また、モデルのサイズが小さいため、AIアクセラレータに効果的に展開することができます。

Gen AIはエッジで勝利する

ChatGPTやClaudeのような一般的なアプリケーションにおいては、クラウド上でGen AIが常に必要とされるでしょう。しかし、Adobe Photoshopの生成フィルやGithubのCopilotなど、エンタープライズ固有のアプリケーションにおいては、エッジでのGenerative AIが未来だけでなく現在でも重要です。これを実現するためには、特化型AIアクセラレータが鍵となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...