SalesforceのAI研究者が、LLMを活用した自律エージェントの進化と革新的なBOLAA戦略を紹介します

SalesforceのAI研究者が、自律エージェントの進化とBOLAA戦略を紹介します

最近の大規模言語モデル(LLM)の成果により、LLMを使用してさまざまな複雑なタスクを処理するための新しい研究が奨励されており、特にLLMを拡張した自律エージェント(LAA)には最も大きな注目が集まっています。 LAAは、LLMの知能を連続的なアクション実行に拡張することにより、設定と難解な問題の処理においてデータを収集することで優位性を示します。 BabyAGI1は、OpenAI LLM2を使用してタスクを生成し、優先順位付けし、実行するAIパワードのタスク管理システムを提案しています。 LLM APIの呼び出しを許可する人気のあるオープンソースのLAAフレームワークはAutoGPT3です。

ReActは、後続のアクションを生成する前に周囲と対話する最近提案されたLAA技術です。 LAAを作成するための現在のオープンソースのフレームワークはLangchain4と呼ばれます。オリジナルの調査のため、LAAは十分に調査されていません。最初に開始するために最適なエージェントアーキテクチャはまだ特定されていません。 LLMが次のアクションを生成するためにインコンテキスト学習を行うためには、ReActはすでに定義済みの例でエージェントを刺激します。さらに、ReActは、アクションを実行する前に中間思考に従事する必要があると主張します。 ReWOOは、LAAに追加の計画プロセスを導入します。

Langchainは、ゼロショットのツール使用能力を持つReActエージェントを一般化します。最適なエージェント設計は、タスクと対応するLLMバックボーンとの整合性を考慮していない先行研究であまり十分に考慮されていません。第二に、LAAにおける現在のLLMの効果の知識はまだ完了していません。初期の論文では、わずかなLLMバックボーンのパフォーマンスが比較されています。 ReActは、主要なLLMとしてPaLMを使用します。 ReWOOは、エージェントの計画と命令の調整にOpenAI text-DaVinci-003モデルを使用します。一般的なウェブエージェントのために、MIND2WebではFlan-T5とOpenAI GPT3.5/4を比較します。

ただし、最近の研究では、異なる事前学習済みLLMを使用したLAAの効果の比較を徹底的に行っているわずかな論文しかありません。比較的最近の記事では、LLMをエージェントとして評価するためのベースラインを発表しています。ただし、エージェントアーキテクチャとそれらのLLMバックボーンを同時に考慮する必要があります。 LAAの研究は、効果と効率の観点から最適なLLMを選択することによって進化しています。第三に、活動がより複雑になるにつれて、多くのエージェントが調整を必要とする場合があります。最近、ReWOOは、推論を観察から分離することでLAAの効果を高めることを発見しました。

この研究では、Salesforce Researchの研究者は、特にオープンドメインの状況において、タスクの複雑さが上がると複数のエージェントを調整して単一のジョブを実行することが好ましいと主張しています。たとえば、オンラインのナビゲーションの仕事では、クリックエージェントを使用してクリック可能なボタンと対話し、他のリソースを見つけるために検索エージェントに依頼するかもしれません。ただし、オーケストレーションの効果を検証し、多くの個人を調整する方法を探索する論文はほとんどありません。この報告書では、これらの研究のギャップを埋めるために、LAAのパフォーマンス比較を包括的に分析することを提案しています。彼らは、LLMバックボーンとLAAエージェントアーキテクチャにさらに深く踏み込みます。

彼らは、既存の設定からエージェントのベンチマークを作成し、さまざまなLLMバックボーンに基づいたさまざまなエージェントアーキテクチャの機能を評価します。彼らのエージェントベンチマークのタスクは、複数のタスクの複雑さレベルに関連しているため、タスクの複雑さに応じたエージェントのパフォーマンスを評価することが可能です。これらのエージェントアーキテクチャは、現在の設計の決定を徹底的に検証するために作成されています。複数の労働LAAの選択とコミュニケーションを可能にするために、彼らはBOLAA5というユニークなLAAアーキテクチャを提示しています。これには、数多くの協力エージェントの上にコントローラーモジュールが備わっています。

この論文の貢献は以下の通りです:

• 6つの異なるLAAエージェントアーキテクチャが開発されました。プロンプト、自己思考、および計画から派生したLAAの設計の直感をサポートするために、これらをいくつかのバックボーンLLMと統合しました。また、アクションとの関与能力を向上させるために、多数の孤立したエージェントの能力を向上させるためのマルチエージェント戦略オーケストレーションのためのBOLAAを作成しました。

• 知識推論タスクと意思決定オンラインナビゲーションに関する環境について包括的な研究を行いました。最終的な疎な報酬と中間的な記憶としてパフォーマンスを提供し、最適なLAAおよび適切なLLMの選択肢に関する定性的な推奨事項を提供します。

• WebShop環境において、BOLAAは他のLAAデザインと比較して常に最高のパフォーマンスを発揮します。彼らの調査結果は、複雑な問題に対処するために協力して働く専門のエージェントの開発の重要性を強調し、強力な一般化能力を持つ大規模なLLMの開発と同じくらい重要であるべきです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIは、人間の確証バイアスを克服できるか?

『思考、速思速行』という本でノーベル賞受賞者ダニエル・カーネマンは、私たちは皆、人間の脳が本来すべきことからは遠く離...

AI研究

マイクロソフトの研究者がPromptTTS 2を発表:声の変動性と費用対効果の向上によるテキスト読み上げの革新

合成音声の理解度と自然さは、最近のテキスト読み上げシステムの進歩により向上しています。大規模なTTSシステムは、複数の話...

人工知能

「2023年のAIに関するガートナー・ハイプ・サイクル」

新しい生成AI技術の登場により、AIの景観が急速に進化したことについて掘り下げましょう

機械学習

3Dボディモデルに音声が付きました:Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介

知識とコンピューテーションヴィジョン、人工知能(AI)の補完分野の進展により、人間の行動を再現し理解するインテリジェン...

機械学習

キャッシュの遷移に対する自動フィードバックによる優先学習

Googleのソフトウェアエンジニア、Ramki GummadiとYouTubeのソフトウェアエンジニア、Kevin Chenによって投稿されました。 キ...

データサイエンス

機械学習エンジニアの必須ツール

約4年前、私はSAPコンサルタントからデータサイエンティストに転身しました自分で設計したカリキュラムに従って、スタートア...