「Googleとトロント大学の研究者が、ライブコンピュータ環境での自律学習とタスク実行のための画期的なゼロショットエージェントを紹介」
「Googleとトロント大学の研究者が画期的なゼロショットエージェントを紹介!ライブコンピュータ環境での自律学習とタスク実行に革新的な取り組み」
“`html
大規模言語モデル(LLM)は、ALFWORLDやALPHACODEなどのさまざまな現場でのアクション製作において、以前の試みで有望な結果を示しています。SAYCAN、REACT、TOOLFORMER、SWIFTSAGEなどの例があります。LLMは、専門家のトレイルを追い、環境の変化を理解し、将来の活動を計画・実施し、APIリクエストを作成するために同様に使用されます。REFLEXIONやSELF-REFINEを含むいくつかの研究は、自己反省の多数のラウンドを繰り返し実行することがタスクの完了を大幅に高めることを示しています。LLMには、環境のフィードバックに基づいて前の実行計画を変更するよう求められます。そのような調整は、次のラウンドのアクションジェネレータのプロンプトに組み込まれます。
最近、MINIWOB ++は、モジュラ化されたコンピューティングワークロードでLLMのパフォーマンスを評価するためのテストベッドとして活用されています。タスクの包括的なトレース例(WebGUM)を使用した直接監督、自己監督、または少数/多数のプロンプティング(SYNAPSE)は、タスクを学習するための標準的な方法です。彼らは、タスク完了率が90%以上である場合の数十のコンピュータジョブを完了し、コンピュータ制御の問題を解決しているようです。ただし、エキスパートトレースの必要性は、エージェントの新しいジョブを学習する能力を制約しています。適切に選択されたトレースをガイドとして使用せずに、エージェントはコンピュータの制御について独立に知識を持ち、それを向上させることができるでしょうか?Google Researchとトロント大学の研究者は、この疑問に答えるために、ゼロショットエージェントを提案しています。
彼らのエージェントは、最新のLLMであるPaLM2の上に構築されており、タスク固有のプロンプトではなく、すべてのアクティビティに対して単一のセットの指示プロンプトを使用しています。また、現代の取り組みであるRCI、ADAPLANNER、SYNAPSEなどは、ユーザーの画面に表示されるデータよりもはるかに多くのデータを含むスクリーン表現を使用する場合があります。たとえば、図1では、LLMに提供されるが画面上に表示されないHTMLに含まれるアイテムが示されています。この新たな知識を任意に使用することで、エージェントのタスク完了能力は向上します。しかし、通常の使用シナリオでは、そのような情報に簡単にアクセスできない場合があり、それに依存することでエージェントの適用範囲が制限される可能性があります。
- 「次世代ニューラルネットワーク:NeurIPSでの多くのAIの技術進歩をNVIDIA Researchが発表」
- このチューリング賞を受賞した研究者は、伝説的な学術顧問になるまでの軌跡
- マイクロソフトの研究者がTable-GPTを紹介:二次元テーブルの理解とタスクで言語モデルを優れたものに
図1は、画面上の異なる表示を示しています。図1a-1cは、「もっと見る」ボタンを押す前後のソーシャルメディアのタスクを示しています(seed=2)。クリックする前に、HTMLで既にマテリアルが表示されています。図1d-1e:クリックタブ2(seed=0)も同様の問題を抱えています。
MINIWOB ++で評価されるように意図された多数のスクリーンにまたがるかなり難しいジョブ13件が注意深く評価され、そのうち5件には単一の観察で含まれるHTMLがそのような情報を含んでいました。彼らが行った貢献は次のとおりです:まず、以前の研究と比較して、より簡潔な画面描写を採用し、テスト環境をより包括的で現実的なものにします。次に、状態上で実行可能な操作を正確に計画するための簡単で効果的なアクションプランナーを提供します。彼らは、このような「素朴な」アプローチが、最新のLLMの能力を使用して、MINIWOB ++ベンチマークのほとんどの単純なタスクを完了できることを示しています。
エージェントが探索的な失敗から成功裡に学び、より難しいタスクに進むために彼らはReflexionから影響を受けた体系的な思考管理技術を提案しています。彼らのエージェントは、数ラウンドの試行の後、以前の少数/多数ショットの最新技術と同等のパフォーマンスを達成します。彼らのエージェントは、研究によると、コンピュータ制御タスクのためのゼロショットデザインとしては彼らが知る限り初めてのものです。
“`
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します
- CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています
- 「UTオースティンの研究者が、LIBEROを導入:意思決定とロボット工学における知識移転を研究するためのライフロング・ロボット・ラーニング・ベンチマーク」
- ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓
- MITの研究者らが、言語モデルの解読において、新たなトレーニングフリーかつゲーム理論に基づくAI手法を紹介
- アムステルダム大学とクアルコムAIの研究者がVeRAを発表:LoRAと比べて訓練可能なパラメーターの数を10倍削減する革新的なファインチューニングAI手法
- UCSDとMicrosoftの研究者がColDecoを導入:計算されたカラムのためのノーコード検査ツール