SalesforceのAI研究者が、LLMを活用した自律エージェントの進化と革新的なBOLAA戦略を紹介します

SalesforceのAI研究者が、自律エージェントの進化とBOLAA戦略を紹介します

最近の大規模言語モデル(LLM)の成果により、LLMを使用してさまざまな複雑なタスクを処理するための新しい研究が奨励されており、特にLLMを拡張した自律エージェント(LAA)には最も大きな注目が集まっています。 LAAは、LLMの知能を連続的なアクション実行に拡張することにより、設定と難解な問題の処理においてデータを収集することで優位性を示します。 BabyAGI1は、OpenAI LLM2を使用してタスクを生成し、優先順位付けし、実行するAIパワードのタスク管理システムを提案しています。 LLM APIの呼び出しを許可する人気のあるオープンソースのLAAフレームワークはAutoGPT3です。

ReActは、後続のアクションを生成する前に周囲と対話する最近提案されたLAA技術です。 LAAを作成するための現在のオープンソースのフレームワークはLangchain4と呼ばれます。オリジナルの調査のため、LAAは十分に調査されていません。最初に開始するために最適なエージェントアーキテクチャはまだ特定されていません。 LLMが次のアクションを生成するためにインコンテキスト学習を行うためには、ReActはすでに定義済みの例でエージェントを刺激します。さらに、ReActは、アクションを実行する前に中間思考に従事する必要があると主張します。 ReWOOは、LAAに追加の計画プロセスを導入します。

Langchainは、ゼロショットのツール使用能力を持つReActエージェントを一般化します。最適なエージェント設計は、タスクと対応するLLMバックボーンとの整合性を考慮していない先行研究であまり十分に考慮されていません。第二に、LAAにおける現在のLLMの効果の知識はまだ完了していません。初期の論文では、わずかなLLMバックボーンのパフォーマンスが比較されています。 ReActは、主要なLLMとしてPaLMを使用します。 ReWOOは、エージェントの計画と命令の調整にOpenAI text-DaVinci-003モデルを使用します。一般的なウェブエージェントのために、MIND2WebではFlan-T5とOpenAI GPT3.5/4を比較します。

ただし、最近の研究では、異なる事前学習済みLLMを使用したLAAの効果の比較を徹底的に行っているわずかな論文しかありません。比較的最近の記事では、LLMをエージェントとして評価するためのベースラインを発表しています。ただし、エージェントアーキテクチャとそれらのLLMバックボーンを同時に考慮する必要があります。 LAAの研究は、効果と効率の観点から最適なLLMを選択することによって進化しています。第三に、活動がより複雑になるにつれて、多くのエージェントが調整を必要とする場合があります。最近、ReWOOは、推論を観察から分離することでLAAの効果を高めることを発見しました。

この研究では、Salesforce Researchの研究者は、特にオープンドメインの状況において、タスクの複雑さが上がると複数のエージェントを調整して単一のジョブを実行することが好ましいと主張しています。たとえば、オンラインのナビゲーションの仕事では、クリックエージェントを使用してクリック可能なボタンと対話し、他のリソースを見つけるために検索エージェントに依頼するかもしれません。ただし、オーケストレーションの効果を検証し、多くの個人を調整する方法を探索する論文はほとんどありません。この報告書では、これらの研究のギャップを埋めるために、LAAのパフォーマンス比較を包括的に分析することを提案しています。彼らは、LLMバックボーンとLAAエージェントアーキテクチャにさらに深く踏み込みます。

彼らは、既存の設定からエージェントのベンチマークを作成し、さまざまなLLMバックボーンに基づいたさまざまなエージェントアーキテクチャの機能を評価します。彼らのエージェントベンチマークのタスクは、複数のタスクの複雑さレベルに関連しているため、タスクの複雑さに応じたエージェントのパフォーマンスを評価することが可能です。これらのエージェントアーキテクチャは、現在の設計の決定を徹底的に検証するために作成されています。複数の労働LAAの選択とコミュニケーションを可能にするために、彼らはBOLAA5というユニークなLAAアーキテクチャを提示しています。これには、数多くの協力エージェントの上にコントローラーモジュールが備わっています。

この論文の貢献は以下の通りです:

• 6つの異なるLAAエージェントアーキテクチャが開発されました。プロンプト、自己思考、および計画から派生したLAAの設計の直感をサポートするために、これらをいくつかのバックボーンLLMと統合しました。また、アクションとの関与能力を向上させるために、多数の孤立したエージェントの能力を向上させるためのマルチエージェント戦略オーケストレーションのためのBOLAAを作成しました。

• 知識推論タスクと意思決定オンラインナビゲーションに関する環境について包括的な研究を行いました。最終的な疎な報酬と中間的な記憶としてパフォーマンスを提供し、最適なLAAおよび適切なLLMの選択肢に関する定性的な推奨事項を提供します。

• WebShop環境において、BOLAAは他のLAAデザインと比較して常に最高のパフォーマンスを発揮します。彼らの調査結果は、複雑な問題に対処するために協力して働く専門のエージェントの開発の重要性を強調し、強力な一般化能力を持つ大規模なLLMの開発と同じくらい重要であるべきです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

『AIが人類を置き換える可能性』

「AIが本当に知能を持ち、人間を超える潜在能力を持っているのかを探ってみましょう」(AI ga hontō ni chinō o mochi, ningen...

機械学習

「勾配降下法:数学を用いた最適化への山岳トレッカーのガイド」

勾配降下法(グラディエントディセント)は、機械学習モデルのエラーを最小化するために使用される最適化手法です最も減少す...

AI研究

南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのある...

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...

AI研究

メタスの新しいテキストから画像へのモデル - CM3leon論文の説明

メタは最近、Stable-Diffusion [2]、Midjourney、またはDALLE [3]のような拡散に基づかない最新のテキストから画像へのモデル...

機械学習

ソースフリーのドメイン適応における壁の破壊:バイオアコースティクスとビジョン領域へのNOTELAの影響

ディープラーニングは、さまざまなアプリケーション領域で重要な進展を遂げています。その一因は、ますます大規模なデータセ...