「生成AIにおけるLLMエージェントのデコーディングの機会と課題」

Opportunities and Challenges in Decoding LLM Agents in Generative AI

大規模な言語モデル(LLM)によって駆動される生成型AIアプリケーションの進展が見られています。プロンプトから検索拡張生成(RAG)へ、そしてエージェントへと進化しています。エージェントは、企業アプリケーションの変革と優れた顧客体験を提供するための技術の力を主に業界や研究の中で話題になっています。エージェントを構築するための共通のパターンがあり、人工汎用知能(AGI)への第一歩を可能にします。

前の記事では、LLMを駆使したアプリケーションを構築するための知識の階層を示しました。問題領域を把握し、LLMの内部メモリを使用して出力を生成するプロンプトから始まります。RAGでは、ベクトルデータベースから検索された外部知識をプロンプトに付加し、出力を制御します。次に、LLMの呼び出しをチェーンさせることで、複雑なアプリケーションを実現するためのワークフローを構築できます。エージェントは、これらのLLMチェーンをどのように形成するかを自動的に決定する能力を持っており、次のレベルに進んでいます。詳細を見てみましょう。

エージェント – 内部構造

エージェントの重要なパターンは、LLMの言語理解力を利用して与えられた問題の解決計画を立てることです。LLMは問題を理解し、問題を解決するための手順のシーケンスを提供します。しかし、それで終わりではありません。エージェントは、問題の解決方法に進むためのツールを持っています。ちょっと怖いですね!?

もしエージェントに次のような基本的な質問をすると:

人間:電話の発明者はどこの会社を創設しましたか?

以下はエージェントが取るかもしれない思考のステップのサンプルです。

エージェント(考え中):

  • 思考:電話の発明者を検索する必要があります。
  • 行動:[電話の発明者]で検索
  • 観察:アレクサンダー・グラハム・ベル
  • 思考:アレクサンダー・グラハム・ベルによって創設された会社を検索する必要があります。
  • 行動:[アレクサンダー・グラハム・ベルによって創設された会社]で検索
  • 観察:アレクサンダー・グラハム・ベルは1885年にアメリカン・テレフォン・アンド・テレグラフ・カンパニー(AT&T)を共同創設しました。
  • 思考:答えが見つかりました。戻ります。

エージェント(応答):アレクサンダー・グラハム・ベルは1885年にAT&Tを共同創設しました

エージェントは、問題を特定のアクションを取ることで解決可能なサブプロブレムに分解する方法論的な手順を追います。ここでのアクションはLLMによって推奨され、これらは具体的なツールと対応付けることができます。エージェントに検索ツールを有効にすることで、LLMが検索をアクションとして提供した場合、エージェントはLLMによって提供されたパラメータを使用してこのツールを呼び出します。ここでの検索はインターネット上で行われますが、内部のベクトルデータベースの検索にリダイレクトすることもできます。これにより、シリーズの手順に従って複雑な問題を解決する方法を自律的に見つけるシステムが実現されます。LangChainやLLaMAIndexなどのフレームワークを使用すると、エージェントの構築とツールやAPIとの接続が簡単になります。Amazonは最近、エージェントを設計するためのビジュアルインターフェースを提供するBedrock Agentsフレームワークを発表しました。

エージェントは、LLMに対してプロンプトを送信する特殊なスタイルに従います。このスタイルには、思考-行動-観察のパターンがあり、ReAct(推論と行動)と呼ばれるエージェントの一種で人気です。他のタイプのエージェントには、MRKLやPlan & Executeもありますが、主にプロンプトのスタイルが異なります。

より複雑なエージェントの場合、アクションはソースシステムに変更をもたらすツールに結び付けられる場合があります。例えば、エージェントをツールに接続して、従業員のERPシステムで休暇残高をチェックし、休暇を申請するツールにすることができます。これにより、ユーザーと対話する素敵なチャットボットを作成し、チャットコマンドを使用してシステム内で休暇を申請することができます。休暇申請のための複雑な画面はもう必要ありません。シンプルで統一されたチャットインターフェースです。ワクワクしませんか!?

注意点と責任あるAIの必要性

さて、もし事前に認可されたAPIを使用して株式取引のトランザクションを起動するツールがあった場合、どうでしょう。エージェントは株式の変動を学習し(ツールを使用して)、株式の売買についての決定を代行します。もしエージェントが幻覚を見て誤った決定を下してしまった場合はどうでしょうか?LLMは巨大なモデルであるため、なぜそのような決定を下すのかを特定することは困難であり、適切なガードレールがない場合には幻覚が生じることがよくあります。

エージェントはすべて魅力的ですが、危険性もあることをおそらく想像しているでしょう。もしエージェントが幻覚を見たり、誤った行動を取ったりした場合、それは巨額の財務損失や企業システムの重大な問題を引き起こす可能性があります。そのため、責任あるAIは、LLMパワードアプリケーションの時代において極めて重要となっています。責任あるAIの原則は再現性、透明性、責任能力の周りにあり、エージェントによって行われる意思決定にガードレールを設け、人間が関与する必要のある行動を判断するためのリスク分析を提案します。より複雑なエージェントが設計されるにつれて、それらはより厳密な監査、透明性、責任能力を必要とし、私たちが彼らが何をしているかを知ることを確認する必要があります。

まとめ

エージェントの能力は、論理的なステップと行動の経路を生成することで、人間の推論に非常に近づけることができます。より強力なツールでエージェントを強化することで、彼らに超能力を与えることができます。ReActなどのパターンは、人間が問題を解決する方法をエミュレートしようとするものであり、特定のコンテキストやドメイン(銀行、保険、医療、産業など)に関連するより良いエージェントのパターンが登場するでしょう。未来はここにあり、エージェントの背後にある技術は私たちが使用する準備ができています。同時に、責任あるAIのガードレールに注意を払い、スカイネットを築いていないことを確認する必要があります!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

クラウドを通じたデジタルトランスフォーメーションの推進

オラクルクラウドワールドの基調講演では、クラウドとAIを活用してデジタル変革の旅を進める業界リーダーたちが、経験とビジ...

機械学習

高度な言語モデルの世界における倫理とプライバシーの探求

はじめに 現代の急速に進化する技術的な景観において、大規模言語モデル(LLM)は、産業を再構築し、人間とコンピュータの相...

機械学習

エコジェンに会ってください:生物学者や生態学者のためにリアルな鳥の歌を生成するために設計された新しいディープラーニングのアプローチ

ディープラーニングの登場は、さまざまな分野に大きな影響を与え、さまざまな領域にその影響を広げています。注目すべき応用...

機械学習

CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コン...

データサイエンス

データサイエンティストが生産性を10倍にするための5つのツール

AIツールは、単調で繰り返されるタスクを自動化することで、データサイエンティストの生産性を最大限に引き上げるのに役立ち...

データサイエンス

ジェネレーティブAIツールを使用する際にプライバシーを保護するための6つの手順

イントロダクション 生成型AIツールの出現は、興奮と懸念を引き起こしました。これらのツールは私たちの生活と仕事を革新する...