このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します
このAI研究は、証明可能なサンプル効率を持つ独立型LLMエージェントのための人工知能フレームワーク「RAFA」を紹介します
LLMの推論能力は優れていますが、それらの能力を実践的な状況で適用するためには改善が必要です。特に、外部の世界との最小限のインタラクション(たとえば内部の推論方法により)で課題を確実に達成する方法は未解決の問題です。
Northwestern University、清華大学、香港中文大学の共同研究によると、推論と行動を調整するために、「将来のための理由、今のための行動」(RAFA)と呼ばれる道徳的なフレームワークが提案されました。このフレームワークは、検証可能な後悔保証を提供します。具体的には、長期的な軌跡プランナー(「将来のための理由」)を作成し、推論のためのメモリバッファのプロンプトから学習します。
ベイジアン適応型MDPパラダイムにおいて、LLMとの推論と行動について形式的に説明されています。各ステージでは、LLMエージェントは計画された軌跡の最初のアクション(「今のための行動」)を実行し、収集されたフィードバックをメモリバッファに保存し、現在の状態に基づいて将来の軌跡を再計画するために再び推論ルーチンを呼び出します。
- CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています
- 「UTオースティンの研究者が、LIBEROを導入:意思決定とロボット工学における知識移転を研究するためのライフロング・ロボット・ラーニング・ベンチマーク」
- ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓
ベイジアン適応型マルコフ決定過程(MDP)における学習と計画は、推論をLLMにおいてMDPとして表現するために使用されます。同様に、LLMに対してメモリバッファを参照して未知の環境についてより正確な事後分布を学習し、ある価値関数を最大化する一連のアクションを設計するように指示します。外部環境の状態が変化すると、LLMエージェントは再び推論ルーチンを呼び出して新しい行動計画を立てます。学習と計画の一貫性を保つために、研究者はより新しい履歴データを使用するかどうかを判断するために切り替え条件を使用します。
RAFAのパフォーマンスを評価するために、Game of 24、ALFWorld、BlocksWorld、Tic-Tac-Toeなどのテキストベースのベンチマークがあります。RAFAは、言語モデルを使用してRL/PLのタスクを実行するAIシステムです。主なポイントは以下の通りです。
- ゲーム24では、RAFAは4つの異なる自然数を足し引きして24を得る方法を決定します。アルゴリズムは最新の式を追跡し、この目標に到達するための次の手順を生成します。サンプル効率性に関して、RAFAは非常に優れたパフォーマンスを発揮します。
- ALFWorldは、使用者が具現化されたエージェントを使用して家事のシミュレーションを実行できる仮想世界です。RAFAは、AdaPlanner、ReAct、Reflexionなどの競合フレームワークよりも優れた結果を達成します。
- BlocksWorldでは、プレイヤーはブロックを使用して構造物を作ることが求められます。Vicuna、RAP、CoTなどの他のモデルと比較して、RAFAの成功率はかなり高いです。
- RAFAはTic-Tac-Toeのゲームで「O」として働き、言語モデルが「X」として働きます。 「O」のペナルティは、RAFAが一部の設定で言語モデルと競い合い、時にはそれを上回ることを防ぎません。研究者は、異なる計画の深さ(B = 3またはB = 4)を選択することでサンプル効率性を改善または低下させる可能性があると考えています。
結論として、RAFAはさまざまな状況やタスクで優れた柔軟なアルゴリズムであり、驚異的なサンプル効率性を示し、他の既存のフレームワークをしばしば上回ります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- MITの研究者らが、言語モデルの解読において、新たなトレーニングフリーかつゲーム理論に基づくAI手法を紹介
- アムステルダム大学とクアルコムAIの研究者がVeRAを発表:LoRAと比べて訓練可能なパラメーターの数を10倍削減する革新的なファインチューニングAI手法
- UCSDとMicrosoftの研究者がColDecoを導入:計算されたカラムのためのノーコード検査ツール
- 中国の新しいAI研究は、ハードウェアラスタライゼーションをサポートし、前例のないレンダリング速度を実現する4Dポイントクラウド表現である4K4Dを提案しています
- ドイツの研究チームがDeepMBを開発しました MSOTを介して高品質でリアルタイムなオプトアコースティックイメージングを提供するディープラーニングフレームワーク
- 材料研究を革新するための機械学習の活用
- CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています