このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します

このAI研究は、証明可能なサンプル効率を持つ独立型LLMエージェントのための人工知能フレームワーク「RAFA」を紹介します

LLMの推論能力は優れていますが、それらの能力を実践的な状況で適用するためには改善が必要です。特に、外部の世界との最小限のインタラクション(たとえば内部の推論方法により)で課題を確実に達成する方法は未解決の問題です。

Northwestern University、清華大学、香港中文大学の共同研究によると、推論と行動を調整するために、「将来のための理由、今のための行動」(RAFA)と呼ばれる道徳的なフレームワークが提案されました。このフレームワークは、検証可能な後悔保証を提供します。具体的には、長期的な軌跡プランナー(「将来のための理由」)を作成し、推論のためのメモリバッファのプロンプトから学習します。

ベイジアン適応型MDPパラダイムにおいて、LLMとの推論と行動について形式的に説明されています。各ステージでは、LLMエージェントは計画された軌跡の最初のアクション(「今のための行動」)を実行し、収集されたフィードバックをメモリバッファに保存し、現在の状態に基づいて将来の軌跡を再計画するために再び推論ルーチンを呼び出します。

ベイジアン適応型マルコフ決定過程(MDP)における学習と計画は、推論をLLMにおいてMDPとして表現するために使用されます。同様に、LLMに対してメモリバッファを参照して未知の環境についてより正確な事後分布を学習し、ある価値関数を最大化する一連のアクションを設計するように指示します。外部環境の状態が変化すると、LLMエージェントは再び推論ルーチンを呼び出して新しい行動計画を立てます。学習と計画の一貫性を保つために、研究者はより新しい履歴データを使用するかどうかを判断するために切り替え条件を使用します。

RAFAのパフォーマンスを評価するために、Game of 24、ALFWorld、BlocksWorld、Tic-Tac-Toeなどのテキストベースのベンチマークがあります。RAFAは、言語モデルを使用してRL/PLのタスクを実行するAIシステムです。主なポイントは以下の通りです。

  • ゲーム24では、RAFAは4つの異なる自然数を足し引きして24を得る方法を決定します。アルゴリズムは最新の式を追跡し、この目標に到達するための次の手順を生成します。サンプル効率性に関して、RAFAは非常に優れたパフォーマンスを発揮します。
  • ALFWorldは、使用者が具現化されたエージェントを使用して家事のシミュレーションを実行できる仮想世界です。RAFAは、AdaPlanner、ReAct、Reflexionなどの競合フレームワークよりも優れた結果を達成します。
  • BlocksWorldでは、プレイヤーはブロックを使用して構造物を作ることが求められます。Vicuna、RAP、CoTなどの他のモデルと比較して、RAFAの成功率はかなり高いです。
  • RAFAはTic-Tac-Toeのゲームで「O」として働き、言語モデルが「X」として働きます。 「O」のペナルティは、RAFAが一部の設定で言語モデルと競い合い、時にはそれを上回ることを防ぎません。研究者は、異なる計画の深さ(B = 3またはB = 4)を選択することでサンプル効率性を改善または低下させる可能性があると考えています。

結論として、RAFAはさまざまな状況やタスクで優れた柔軟なアルゴリズムであり、驚異的なサンプル効率性を示し、他の既存のフレームワークをしばしば上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UCバークレーの研究者たちは、FastRLAPを提案していますこれは、深層強化学習(Deep RL)と自律練習を通じて高速運転を学ぶためのシステムです

カリフォルニア大学バークレー校の研究者たちは、FastrLapというシステムを開発しました。このシステムは機械学習を使用して...

機械学習

メディアでの顔のぼかしの力を解き放つ:包括的な探索とモデルの比較

現代のデータ駆動型の世界において、個人のプライバシーと匿名性を確保することは非常に重要です個人のアイデンティティを保...

機械学習

「非常にシンプルな数学が大規模言語モデル(LLMs)の強化学習と高次関数(RLHF)に情報を提供できるのか? このAIの論文はイエスと言っています!」

人間の入力を取り入れることは、ChatGPTやGPT-4などの大規模言語モデル(LLM)の能力の近年の印象的な向上の鍵要素です。人間...

機械学習

「生成タスクを分類タスクに変換する」

「大規模な汎用言語モデルのコストは、より効率的なタスク特定の分類モデルをトレーニングすることによって軽減することがで...

データサイエンス

エクスラマV2:LLMを実行するための最速のライブラリ

ExLlamaV2は、GPTQからさらに高いパフォーマンスを引き出すために設計されたライブラリです新しいカーネルのおかげで、(超高...