このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します

このAI研究は、証明可能なサンプル効率を持つ独立型LLMエージェントのための人工知能フレームワーク「RAFA」を紹介します

LLMの推論能力は優れていますが、それらの能力を実践的な状況で適用するためには改善が必要です。特に、外部の世界との最小限のインタラクション(たとえば内部の推論方法により)で課題を確実に達成する方法は未解決の問題です。

Northwestern University、清華大学、香港中文大学の共同研究によると、推論と行動を調整するために、「将来のための理由、今のための行動」(RAFA)と呼ばれる道徳的なフレームワークが提案されました。このフレームワークは、検証可能な後悔保証を提供します。具体的には、長期的な軌跡プランナー(「将来のための理由」)を作成し、推論のためのメモリバッファのプロンプトから学習します。

ベイジアン適応型MDPパラダイムにおいて、LLMとの推論と行動について形式的に説明されています。各ステージでは、LLMエージェントは計画された軌跡の最初のアクション(「今のための行動」)を実行し、収集されたフィードバックをメモリバッファに保存し、現在の状態に基づいて将来の軌跡を再計画するために再び推論ルーチンを呼び出します。

ベイジアン適応型マルコフ決定過程(MDP)における学習と計画は、推論をLLMにおいてMDPとして表現するために使用されます。同様に、LLMに対してメモリバッファを参照して未知の環境についてより正確な事後分布を学習し、ある価値関数を最大化する一連のアクションを設計するように指示します。外部環境の状態が変化すると、LLMエージェントは再び推論ルーチンを呼び出して新しい行動計画を立てます。学習と計画の一貫性を保つために、研究者はより新しい履歴データを使用するかどうかを判断するために切り替え条件を使用します。

RAFAのパフォーマンスを評価するために、Game of 24、ALFWorld、BlocksWorld、Tic-Tac-Toeなどのテキストベースのベンチマークがあります。RAFAは、言語モデルを使用してRL/PLのタスクを実行するAIシステムです。主なポイントは以下の通りです。

  • ゲーム24では、RAFAは4つの異なる自然数を足し引きして24を得る方法を決定します。アルゴリズムは最新の式を追跡し、この目標に到達するための次の手順を生成します。サンプル効率性に関して、RAFAは非常に優れたパフォーマンスを発揮します。
  • ALFWorldは、使用者が具現化されたエージェントを使用して家事のシミュレーションを実行できる仮想世界です。RAFAは、AdaPlanner、ReAct、Reflexionなどの競合フレームワークよりも優れた結果を達成します。
  • BlocksWorldでは、プレイヤーはブロックを使用して構造物を作ることが求められます。Vicuna、RAP、CoTなどの他のモデルと比較して、RAFAの成功率はかなり高いです。
  • RAFAはTic-Tac-Toeのゲームで「O」として働き、言語モデルが「X」として働きます。 「O」のペナルティは、RAFAが一部の設定で言語モデルと競い合い、時にはそれを上回ることを防ぎません。研究者は、異なる計画の深さ(B = 3またはB = 4)を選択することでサンプル効率性を改善または低下させる可能性があると考えています。

結論として、RAFAはさまざまな状況やタスクで優れた柔軟なアルゴリズムであり、驚異的なサンプル効率性を示し、他の既存のフレームワークをしばしば上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「GBMとXGBoostの違いって何だ?」

有名なアルゴリズム間の実質的な違いをご覧ください (Yūmei na arugorizumu-kan no jitsubutsuteki na chigai o goran kudasai.)

人工知能

「Flowise AI:LLMフローを構築するためのドラッグアンドドロップUI」

プログラミングの経験がない?心配しないでください自分自身のカスタマイズされたLLMフローを作成するのに役立つドラッグアン...

AI研究

マイクロソフトリサーチがAIコンパイラの「ヘビーメタルカルテット」である「Rammer」「Roller」「Welder」「Grinder」をリリースしました

人工知能(AI)モデルとハードウェアアクセラレータの進化により、コンパイラには独自の課題が生じています。これらの課題は...

機械学習

ハイパーパラメータ最適化のためのトップツール/プラットフォーム2023年

ハイパーパラメータは、モデルの作成時にアルゴリズムの振る舞いを制御するために使用されるパラメータです。これらの要因は...

データサイエンス

CDPとAIの交差点:人工知能が顧客データプラットフォームを革新する方法

「顧客データプラットフォーム(CDP)内のAI駆動の洞察が、パーソナライズされた顧客体験を革新する方法」

データサイエンス

線形回帰と勾配降下法

線形回帰は機械学習に存在する基本アルゴリズムの1つですその内部ワークフローを理解することは、データサイエンスの他のアル...