「生成AIにおけるLLMエージェントのデコーディングの機会と課題」

Opportunities and Challenges in Decoding LLM Agents in Generative AI

大規模な言語モデル(LLM)によって駆動される生成型AIアプリケーションの進展が見られています。プロンプトから検索拡張生成(RAG)へ、そしてエージェントへと進化しています。エージェントは、企業アプリケーションの変革と優れた顧客体験を提供するための技術の力を主に業界や研究の中で話題になっています。エージェントを構築するための共通のパターンがあり、人工汎用知能(AGI)への第一歩を可能にします。

前の記事では、LLMを駆使したアプリケーションを構築するための知識の階層を示しました。問題領域を把握し、LLMの内部メモリを使用して出力を生成するプロンプトから始まります。RAGでは、ベクトルデータベースから検索された外部知識をプロンプトに付加し、出力を制御します。次に、LLMの呼び出しをチェーンさせることで、複雑なアプリケーションを実現するためのワークフローを構築できます。エージェントは、これらのLLMチェーンをどのように形成するかを自動的に決定する能力を持っており、次のレベルに進んでいます。詳細を見てみましょう。

エージェント – 内部構造

エージェントの重要なパターンは、LLMの言語理解力を利用して与えられた問題の解決計画を立てることです。LLMは問題を理解し、問題を解決するための手順のシーケンスを提供します。しかし、それで終わりではありません。エージェントは、問題の解決方法に進むためのツールを持っています。ちょっと怖いですね!?

もしエージェントに次のような基本的な質問をすると:

人間:電話の発明者はどこの会社を創設しましたか?

以下はエージェントが取るかもしれない思考のステップのサンプルです。

エージェント(考え中):

  • 思考:電話の発明者を検索する必要があります。
  • 行動:[電話の発明者]で検索
  • 観察:アレクサンダー・グラハム・ベル
  • 思考:アレクサンダー・グラハム・ベルによって創設された会社を検索する必要があります。
  • 行動:[アレクサンダー・グラハム・ベルによって創設された会社]で検索
  • 観察:アレクサンダー・グラハム・ベルは1885年にアメリカン・テレフォン・アンド・テレグラフ・カンパニー(AT&T)を共同創設しました。
  • 思考:答えが見つかりました。戻ります。

エージェント(応答):アレクサンダー・グラハム・ベルは1885年にAT&Tを共同創設しました

エージェントは、問題を特定のアクションを取ることで解決可能なサブプロブレムに分解する方法論的な手順を追います。ここでのアクションはLLMによって推奨され、これらは具体的なツールと対応付けることができます。エージェントに検索ツールを有効にすることで、LLMが検索をアクションとして提供した場合、エージェントはLLMによって提供されたパラメータを使用してこのツールを呼び出します。ここでの検索はインターネット上で行われますが、内部のベクトルデータベースの検索にリダイレクトすることもできます。これにより、シリーズの手順に従って複雑な問題を解決する方法を自律的に見つけるシステムが実現されます。LangChainやLLaMAIndexなどのフレームワークを使用すると、エージェントの構築とツールやAPIとの接続が簡単になります。Amazonは最近、エージェントを設計するためのビジュアルインターフェースを提供するBedrock Agentsフレームワークを発表しました。

エージェントは、LLMに対してプロンプトを送信する特殊なスタイルに従います。このスタイルには、思考-行動-観察のパターンがあり、ReAct(推論と行動)と呼ばれるエージェントの一種で人気です。他のタイプのエージェントには、MRKLやPlan & Executeもありますが、主にプロンプトのスタイルが異なります。

より複雑なエージェントの場合、アクションはソースシステムに変更をもたらすツールに結び付けられる場合があります。例えば、エージェントをツールに接続して、従業員のERPシステムで休暇残高をチェックし、休暇を申請するツールにすることができます。これにより、ユーザーと対話する素敵なチャットボットを作成し、チャットコマンドを使用してシステム内で休暇を申請することができます。休暇申請のための複雑な画面はもう必要ありません。シンプルで統一されたチャットインターフェースです。ワクワクしませんか!?

注意点と責任あるAIの必要性

さて、もし事前に認可されたAPIを使用して株式取引のトランザクションを起動するツールがあった場合、どうでしょう。エージェントは株式の変動を学習し(ツールを使用して)、株式の売買についての決定を代行します。もしエージェントが幻覚を見て誤った決定を下してしまった場合はどうでしょうか?LLMは巨大なモデルであるため、なぜそのような決定を下すのかを特定することは困難であり、適切なガードレールがない場合には幻覚が生じることがよくあります。

エージェントはすべて魅力的ですが、危険性もあることをおそらく想像しているでしょう。もしエージェントが幻覚を見たり、誤った行動を取ったりした場合、それは巨額の財務損失や企業システムの重大な問題を引き起こす可能性があります。そのため、責任あるAIは、LLMパワードアプリケーションの時代において極めて重要となっています。責任あるAIの原則は再現性、透明性、責任能力の周りにあり、エージェントによって行われる意思決定にガードレールを設け、人間が関与する必要のある行動を判断するためのリスク分析を提案します。より複雑なエージェントが設計されるにつれて、それらはより厳密な監査、透明性、責任能力を必要とし、私たちが彼らが何をしているかを知ることを確認する必要があります。

まとめ

エージェントの能力は、論理的なステップと行動の経路を生成することで、人間の推論に非常に近づけることができます。より強力なツールでエージェントを強化することで、彼らに超能力を与えることができます。ReActなどのパターンは、人間が問題を解決する方法をエミュレートしようとするものであり、特定のコンテキストやドメイン(銀行、保険、医療、産業など)に関連するより良いエージェントのパターンが登場するでしょう。未来はここにあり、エージェントの背後にある技術は私たちが使用する準備ができています。同時に、責任あるAIのガードレールに注意を払い、スカイネットを築いていないことを確認する必要があります!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「テーマパークのシミュレーション:Rを使って待ち時間を理解する」

長い列はいつも嫌なものです、特に宇宙を舞い上がるか、グレート・バリア・リーフを航行するために待っている時には夏休みが...

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...

AI研究

「AWS 研究者がジェミニを紹介:大規模な深層学習トレーニングにおける画期的な高速障害回復」

ライス大学とAmazon Web Servicesの研究者チームが、GEMINIと呼ばれる分散トレーニングシステムを開発しました。このシステム...

データサイエンス

オープンAIによるこの動きは、AGIへの道を開くだろう

人工知能(AI)の能力向上を目指した画期的な取り組みの一環として、OpenAIはデータパートナーシップイニシアチブを発表しま...

人工知能

「ビジネスを拡大するための25のChatGPTプロンプト」

「25個のChatGPTテンプレートのプロンプトをコピーして貼り付けすることで、あなたのビジネス(および収入)を次のレベルに引...

機械学習

イクイノックスに会いましょう:ニューラルネットワークとsciMLのためのJAXライブラリ

データサイエンスや機械学習コミュニティ内で人気を集めている数値計算メソッドのためのJAXライブラリ、Equinoxに会いましょ...