「生成AIにおけるLLMエージェントのデコーディングの機会と課題」
Opportunities and Challenges in Decoding LLM Agents in Generative AI
大規模な言語モデル(LLM)によって駆動される生成型AIアプリケーションの進展が見られています。プロンプトから検索拡張生成(RAG)へ、そしてエージェントへと進化しています。エージェントは、企業アプリケーションの変革と優れた顧客体験を提供するための技術の力を主に業界や研究の中で話題になっています。エージェントを構築するための共通のパターンがあり、人工汎用知能(AGI)への第一歩を可能にします。
前の記事では、LLMを駆使したアプリケーションを構築するための知識の階層を示しました。問題領域を把握し、LLMの内部メモリを使用して出力を生成するプロンプトから始まります。RAGでは、ベクトルデータベースから検索された外部知識をプロンプトに付加し、出力を制御します。次に、LLMの呼び出しをチェーンさせることで、複雑なアプリケーションを実現するためのワークフローを構築できます。エージェントは、これらのLLMチェーンをどのように形成するかを自動的に決定する能力を持っており、次のレベルに進んでいます。詳細を見てみましょう。
エージェント – 内部構造
エージェントの重要なパターンは、LLMの言語理解力を利用して与えられた問題の解決計画を立てることです。LLMは問題を理解し、問題を解決するための手順のシーケンスを提供します。しかし、それで終わりではありません。エージェントは、問題の解決方法に進むためのツールを持っています。ちょっと怖いですね!?
- 「AIとMLが高い需要になる10の理由」 1. ビッグデータの増加による需要の増加:ビッグデータの処理と分析にはAIとMLが必要です 2. 自動化の需要の増加:AIとMLは、自動化されたプロセスとタスクの実行に不可欠です 3. 予測能力の向上:AIとMLは、予測分析において非常に効果的です 4. パーソナライズされたエクスペリエンスの需要:AIとMLは、ユーザーの行動と嗜好を理解し、パーソナライズされたエクスペリエンスを提供するのに役立ちます 5. 自動運転技術の需要の増加:自動運転技術の発展にはAIとMLが不可欠です 6. セキュリティの需要の増加:AIとMLは、セキュリティ分野で新たな挑戦に対処するために使用されます 7. ヘルスケアの需要の増加:AIとMLは、病気の早期検出や治療計画の最適化など、医療分野で重要な役割を果たします 8. クラウドコンピューティングの需要の増加:AIとMLは、クラウドコンピューティングのパフォーマンスと効率を向上させるのに役立ちます 9. ロボティクスの需要の増加:AIとMLは、ロボットの自律性と学習能力を高めるのに使用されます 10. インターネットオブシングス(IoT)の需要の増加:AIとMLは、IoTデバイスのデータ分析と制御に重要な役割を果たします
- 「ChatGPTを再び視覚させる:このAIアプローチは、リンクコンテキスト学習を探求してマルチモーダル学習を可能にします」
- 「生成AIをめぐる旅」
もしエージェントに次のような基本的な質問をすると:
人間:電話の発明者はどこの会社を創設しましたか?
以下はエージェントが取るかもしれない思考のステップのサンプルです。
エージェント(考え中):
- 思考:電話の発明者を検索する必要があります。
- 行動:[電話の発明者]で検索
- 観察:アレクサンダー・グラハム・ベル
- 思考:アレクサンダー・グラハム・ベルによって創設された会社を検索する必要があります。
- 行動:[アレクサンダー・グラハム・ベルによって創設された会社]で検索
- 観察:アレクサンダー・グラハム・ベルは1885年にアメリカン・テレフォン・アンド・テレグラフ・カンパニー(AT&T)を共同創設しました。
- 思考:答えが見つかりました。戻ります。
エージェント(応答):アレクサンダー・グラハム・ベルは1885年にAT&Tを共同創設しました
エージェントは、問題を特定のアクションを取ることで解決可能なサブプロブレムに分解する方法論的な手順を追います。ここでのアクションはLLMによって推奨され、これらは具体的なツールと対応付けることができます。エージェントに検索ツールを有効にすることで、LLMが検索をアクションとして提供した場合、エージェントはLLMによって提供されたパラメータを使用してこのツールを呼び出します。ここでの検索はインターネット上で行われますが、内部のベクトルデータベースの検索にリダイレクトすることもできます。これにより、シリーズの手順に従って複雑な問題を解決する方法を自律的に見つけるシステムが実現されます。LangChainやLLaMAIndexなどのフレームワークを使用すると、エージェントの構築とツールやAPIとの接続が簡単になります。Amazonは最近、エージェントを設計するためのビジュアルインターフェースを提供するBedrock Agentsフレームワークを発表しました。
エージェントは、LLMに対してプロンプトを送信する特殊なスタイルに従います。このスタイルには、思考-行動-観察のパターンがあり、ReAct(推論と行動)と呼ばれるエージェントの一種で人気です。他のタイプのエージェントには、MRKLやPlan & Executeもありますが、主にプロンプトのスタイルが異なります。
より複雑なエージェントの場合、アクションはソースシステムに変更をもたらすツールに結び付けられる場合があります。例えば、エージェントをツールに接続して、従業員のERPシステムで休暇残高をチェックし、休暇を申請するツールにすることができます。これにより、ユーザーと対話する素敵なチャットボットを作成し、チャットコマンドを使用してシステム内で休暇を申請することができます。休暇申請のための複雑な画面はもう必要ありません。シンプルで統一されたチャットインターフェースです。ワクワクしませんか!?
注意点と責任あるAIの必要性
さて、もし事前に認可されたAPIを使用して株式取引のトランザクションを起動するツールがあった場合、どうでしょう。エージェントは株式の変動を学習し(ツールを使用して)、株式の売買についての決定を代行します。もしエージェントが幻覚を見て誤った決定を下してしまった場合はどうでしょうか?LLMは巨大なモデルであるため、なぜそのような決定を下すのかを特定することは困難であり、適切なガードレールがない場合には幻覚が生じることがよくあります。
エージェントはすべて魅力的ですが、危険性もあることをおそらく想像しているでしょう。もしエージェントが幻覚を見たり、誤った行動を取ったりした場合、それは巨額の財務損失や企業システムの重大な問題を引き起こす可能性があります。そのため、責任あるAIは、LLMパワードアプリケーションの時代において極めて重要となっています。責任あるAIの原則は再現性、透明性、責任能力の周りにあり、エージェントによって行われる意思決定にガードレールを設け、人間が関与する必要のある行動を判断するためのリスク分析を提案します。より複雑なエージェントが設計されるにつれて、それらはより厳密な監査、透明性、責任能力を必要とし、私たちが彼らが何をしているかを知ることを確認する必要があります。
まとめ
エージェントの能力は、論理的なステップと行動の経路を生成することで、人間の推論に非常に近づけることができます。より強力なツールでエージェントを強化することで、彼らに超能力を与えることができます。ReActなどのパターンは、人間が問題を解決する方法をエミュレートしようとするものであり、特定のコンテキストやドメイン(銀行、保険、医療、産業など)に関連するより良いエージェントのパターンが登場するでしょう。未来はここにあり、エージェントの背後にある技術は私たちが使用する準備ができています。同時に、責任あるAIのガードレールに注意を払い、スカイネットを築いていないことを確認する必要があります!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 上位10のLLM脆弱性
- 「LLaSMと出会う:音声と言語の指示に従うクロスモーダルな対話能力を持つエンドツーエンドで訓練された大規模なマルチモーダル音声言語モデル」
- 「機械学習のためのソフトウェアエンジニアリングパターン」
- 「生成モデルを活用して半教師あり学習を強化する」
- TinyLlamaと出会ってください:3兆トークンで1.1Bのラマモデルを事前学習することを目指した小さなAIモデル
- アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました
- 「AI時代における学術的誠実性の再考:ChatGPTと32のコースの大学生の比較分析」