「生成AIの未来はエッジです」
「生成AIの未来は最先端にあります」
ChatGPTの登場と一般的な生成型AIは、技術の歴史において画期的な瞬間であり、インターネットやスマートフォンの誕生と同様に評価されています。生成型AIは、知的な対話を行ったり、試験に合格したり、複雑なプログラム/コードを生成したり、魅力的な画像や動画を作成したりする能力において、限りない可能性を示しています。一般的に、クラウドでGPUがGen AIモデルのほとんどを動かしますが(トレーニングおよび推論の両方において)、これは特に推論においては長期的にはスケーラブルな解決策ではありません。原因としては、コスト、電力、レイテンシ、プライバシー、セキュリティなどの要素があります。本記事では、これらの要素と具体的な例を挙げながら、Gen AIの計算ワークロードをエッジに移行する動機を探ります。
ほとんどのアプリケーションはハイパフォーマンスプロセッサ上で実行されます――デバイス上(スマートフォン、デスクトップ、ノートパソコンなど)またはデータセンター上。AIを利用するアプリケーションの割合が増えるにつれて、これらのCPUだけのプロセッサは不十分です。さらに、生成型AIのワークロードの急速な拡大により、高価で消費電力の高いGPUを搭載したAI対応サーバーへの需要が急増しており、インフラストラクチャのコストも上昇しています。これらのAI対応サーバーは、通常のサーバーの価格の7倍以上かかることもあり、その80%がGPUの追加コストに費やされます。
さらに、クラウドベースのサーバーでは500Wから2000Wの電力を消費しますが、AI対応サーバーは2000Wから8000Wの電力を消費します。そのため、これらのサーバーをサポートするためには、データセンターに追加の冷却モジュールとインフラストラクチャのアップグレードが必要となります。既にデータセンターは年間300 TWHの電力を消費しており、2023年までに世界全体の電力消費量のほぼ1%を占めることが予測されています。AIの採用の傾向が続く場合、2030年までには世界全体の電力の5%がデータセンターによって消費される可能性があります。さらに、生成型AIデータセンターへの前例のない投資も行われています。AIインフラストラクチャの要件を主な要因として、2027年までにデータセンターには5000億ドル以上が投資されると推定されています。
既に300 TWHのデータセンターの電力消費は、生成型AIの採用に伴い大幅に増加するでしょう。
AIの計算コストやエネルギー消費は、生成型AIの大規模な採用を妨げるでしょう。スケーリングの課題は、AIのコンピューティングをエッジに移行し、AIワークロードに最適化された処理ソリューションを使用することで克服することができます。このアプローチにより、レイテンシ、プライバシー、信頼性、さらなる能力の向上など、顧客にも他の利点がもたらされます。
データに合わせてコンピューティングもエッジへ
AIが10年前に学術界から現れて以来、AIモデルのトレーニングと推論はクラウド/データセンターで行われてきました。データの大部分がエッジで生成および消費されている(特にビデオ)ため、データの推論をエッジに移動することは、ネットワークおよびコンピュートのコスト削減により、エンタープライズの総所有コスト(TCO)の向上につながるため、理にかなっています。クラウド上のAI推論コストは継続的ですが、エッジでの推論のコストは一度限りのハードウェア費用です。基本的に、エッジAIプロセッサをシステムに追加することで、全体的な運用コストを低減することができます。従来のAIワークロードのエッジへの移行(例:アプライアンス、デバイス)と同様に、生成型AIワークロードもそれに続きます。これにより、企業と消費者に大きな節約がもたらされます。
エッジへの移行に加え、効率的なAIアクセラレータを使用して推論機能を実行することで、他の利点も得られます。その中でも、レイテンシは特に重要です。たとえば、ゲームのアプリケーションでは、生成型AIを使用して非プレイヤーキャラクター(NPC)を制御および拡張できます。ゲームコンソールやPCで動作するLLMモデルを使用して、ゲーマーはこれらのキャラクターに特定の目標を与えることができます。これにより、NPCの音声や動作がプレイヤーのコマンドやアクションにリアルタイムで応答します。これにより、コスト効果的で省電力な方法で非常に没入型のゲーム体験が実現されます。
医療などのアプリケーションでは、プライバシーと信頼性が非常に重要です(例:患者評価、薬の推奨)。データと関連するGen AIモデルはオンプレミスに配置され、患者データの保護(プライバシー)やクラウド上のAIモデルへのアクセスブロックが発生した場合のネットワーク障害を回避することができます。エッジAIアプライアンスは、各エンタープライズ顧客向けに目的に合わせて作られたGen AIモデルを実行することで、プライバシーや信頼性の問題をシームレスに解決し、レイテンシとコストの低減を実現します。
エッジデバイスでの生成AIは、ゲーミングにおいて低遅延を確保し、医療での患者データを保護し、信頼性を向上させます。
クラウド上で実行される多くのGen AIモデルは、兆パラメータに近いものがあります。これらのモデルは一般的なクエリに効果的に対応できます。ただし、エンタープライズ固有のアプリケーションでは、ユースケースに関連した結果を提供するために、モデルが必要です。たとえば、ファストフード店で注文を受けるために構築されたGen AIベースのアシスタントの例を取ります。このシステムがシームレスな顧客対応を行うためには、基礎となるGen AIモデルがレストランのメニューアイテムやアレルゲンおよび成分についてトレーニングされている必要があります。モデルのサイズは、スーパーセットの大規模言語モデル(LLM)を使用して、比較的小さな10-30兆パラメータのLLMをトレーニングし、さらにカスタマー固有のデータで追加の微調整を行うことで最適化できます。このようなモデルは、増加した精度と機能性で結果を提供することができます。また、モデルのサイズが小さいため、AIアクセラレータに効果的に展開することができます。
Gen AIはエッジで勝利する
ChatGPTやClaudeのような一般的なアプリケーションにおいては、クラウド上でGen AIが常に必要とされるでしょう。しかし、Adobe Photoshopの生成フィルやGithubのCopilotなど、エンタープライズ固有のアプリケーションにおいては、エッジでのGenerative AIが未来だけでなく現在でも重要です。これを実現するためには、特化型AIアクセラレータが鍵となります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles