このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します

このAI研究は、証明可能なサンプル効率を持つ独立型LLMエージェントのための人工知能フレームワーク「RAFA」を紹介します

LLMの推論能力は優れていますが、それらの能力を実践的な状況で適用するためには改善が必要です。特に、外部の世界との最小限のインタラクション（たとえば内部の推論方法により）で課題を確実に達成する方法は未解決の問題です。

Northwestern University、清華大学、香港中文大学の共同研究によると、推論と行動を調整するために、「将来のための理由、今のための行動」（RAFA）と呼ばれる道徳的なフレームワークが提案されました。このフレームワークは、検証可能な後悔保証を提供します。具体的には、長期的な軌跡プランナー（「将来のための理由」）を作成し、推論のためのメモリバッファのプロンプトから学習します。

ベイジアン適応型MDPパラダイムにおいて、LLMとの推論と行動について形式的に説明されています。各ステージでは、LLMエージェントは計画された軌跡の最初のアクション（「今のための行動」）を実行し、収集されたフィードバックをメモリバッファに保存し、現在の状態に基づいて将来の軌跡を再計画するために再び推論ルーチンを呼び出します。

ベイジアン適応型マルコフ決定過程（MDP）における学習と計画は、推論をLLMにおいてMDPとして表現するために使用されます。同様に、LLMに対してメモリバッファを参照して未知の環境についてより正確な事後分布を学習し、ある価値関数を最大化する一連のアクションを設計するように指示します。外部環境の状態が変化すると、LLMエージェントは再び推論ルーチンを呼び出して新しい行動計画を立てます。学習と計画の一貫性を保つために、研究者はより新しい履歴データを使用するかどうかを判断するために切り替え条件を使用します。

RAFAのパフォーマンスを評価するために、Game of 24、ALFWorld、BlocksWorld、Tic-Tac-Toeなどのテキストベースのベンチマークがあります。RAFAは、言語モデルを使用してRL/PLのタスクを実行するAIシステムです。主なポイントは以下の通りです。

ゲーム24では、RAFAは4つの異なる自然数を足し引きして24を得る方法を決定します。アルゴリズムは最新の式を追跡し、この目標に到達するための次の手順を生成します。サンプル効率性に関して、RAFAは非常に優れたパフォーマンスを発揮します。
ALFWorldは、使用者が具現化されたエージェントを使用して家事のシミュレーションを実行できる仮想世界です。RAFAは、AdaPlanner、ReAct、Reflexionなどの競合フレームワークよりも優れた結果を達成します。
BlocksWorldでは、プレイヤーはブロックを使用して構造物を作ることが求められます。Vicuna、RAP、CoTなどの他のモデルと比較して、RAFAの成功率はかなり高いです。
RAFAはTic-Tac-Toeのゲームで「O」として働き、言語モデルが「X」として働きます。「O」のペナルティは、RAFAが一部の設定で言語モデルと競い合い、時にはそれを上回ることを防ぎません。研究者は、異なる計画の深さ（B = 3またはB = 4）を選択することでサンプル効率性を改善または低下させる可能性があると考えています。

結論として、RAFAはさまざまな状況やタスクで優れた柔軟なアルゴリズムであり、驚異的なサンプル効率性を示し、他の既存のフレームワークをしばしば上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します

Was this article helpful?

「Amazon Textract、Amazon Bedrock、およびLangChainによるインテリジェントドキュメント処理」

AI研究

新しいAmazon SageMakerコンテナでLLMの推論パフォーマンスを強化する

ロジスティック回帰のためのワンストップ

「RecMindと出会ってください：推薦タスクのための推論、行動、およびメモリを組み合わせた大規模言語モデル技術によって駆動される自律型の推薦エージェント」

データセンターにおけるエネルギー効率最適化のための観測技術の活用

「夢を先に見て、後で学ぶ：DECKARDは強化学習（RL）エージェントのトレーニングにLLMsを使用するAIアプローチです」

マシンラーニング手法の鉄道欠陥検索への応用（パート2）