「Googleとトロント大学の研究者が、ライブコンピュータ環境での自律学習とタスク実行のための画期的なゼロショットエージェントを紹介」

「Googleとトロント大学の研究者が画期的なゼロショットエージェントを紹介!ライブコンピュータ環境での自律学習とタスク実行に革新的な取り組み」

“`html

大規模言語モデル(LLM)は、ALFWORLDやALPHACODEなどのさまざまな現場でのアクション製作において、以前の試みで有望な結果を示しています。SAYCAN、REACT、TOOLFORMER、SWIFTSAGEなどの例があります。LLMは、専門家のトレイルを追い、環境の変化を理解し、将来の活動を計画・実施し、APIリクエストを作成するために同様に使用されます。REFLEXIONやSELF-REFINEを含むいくつかの研究は、自己反省の多数のラウンドを繰り返し実行することがタスクの完了を大幅に高めることを示しています。LLMには、環境のフィードバックに基づいて前の実行計画を変更するよう求められます。そのような調整は、次のラウンドのアクションジェネレータのプロンプトに組み込まれます。

最近、MINIWOB ++は、モジュラ化されたコンピューティングワークロードでLLMのパフォーマンスを評価するためのテストベッドとして活用されています。タスクの包括的なトレース例(WebGUM)を使用した直接監督、自己監督、または少数/多数のプロンプティング(SYNAPSE)は、タスクを学習するための標準的な方法です。彼らは、タスク完了率が90%以上である場合の数十のコンピュータジョブを完了し、コンピュータ制御の問題を解決しているようです。ただし、エキスパートトレースの必要性は、エージェントの新しいジョブを学習する能力を制約しています。適切に選択されたトレースをガイドとして使用せずに、エージェントはコンピュータの制御について独立に知識を持ち、それを向上させることができるでしょうか?Google Researchとトロント大学の研究者は、この疑問に答えるために、ゼロショットエージェントを提案しています。

彼らのエージェントは、最新のLLMであるPaLM2の上に構築されており、タスク固有のプロンプトではなく、すべてのアクティビティに対して単一のセットの指示プロンプトを使用しています。また、現代の取り組みであるRCI、ADAPLANNER、SYNAPSEなどは、ユーザーの画面に表示されるデータよりもはるかに多くのデータを含むスクリーン表現を使用する場合があります。たとえば、図1では、LLMに提供されるが画面上に表示されないHTMLに含まれるアイテムが示されています。この新たな知識を任意に使用することで、エージェントのタスク完了能力は向上します。しかし、通常の使用シナリオでは、そのような情報に簡単にアクセスできない場合があり、それに依存することでエージェントの適用範囲が制限される可能性があります。

図1は、画面上の異なる表示を示しています。図1a-1cは、「もっと見る」ボタンを押す前後のソーシャルメディアのタスクを示しています(seed=2)。クリックする前に、HTMLで既にマテリアルが表示されています。図1d-1e:クリックタブ2(seed=0)も同様の問題を抱えています。

MINIWOB ++で評価されるように意図された多数のスクリーンにまたがるかなり難しいジョブ13件が注意深く評価され、そのうち5件には単一の観察で含まれるHTMLがそのような情報を含んでいました。彼らが行った貢献は次のとおりです:まず、以前の研究と比較して、より簡潔な画面描写を採用し、テスト環境をより包括的で現実的なものにします。次に、状態上で実行可能な操作を正確に計画するための簡単で効果的なアクションプランナーを提供します。彼らは、このような「素朴な」アプローチが、最新のLLMの能力を使用して、MINIWOB ++ベンチマークのほとんどの単純なタスクを完了できることを示しています。

エージェントが探索的な失敗から成功裡に学び、より難しいタスクに進むために彼らはReflexionから影響を受けた体系的な思考管理技術を提案しています。彼らのエージェントは、数ラウンドの試行の後、以前の少数/多数ショットの最新技術と同等のパフォーマンスを達成します。彼らのエージェントは、研究によると、コンピュータ制御タスクのためのゼロショットデザインとしては彼らが知る限り初めてのものです。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「2023-24年のアクセンチュアフェローにお会いください」

「MITとAccentureの産業と技術の融合イニシアチブは、2023-24年度の大学院フェローシップを発表します」

AI研究

「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

大規模な言語モデル(LLM)であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MM...

機械学習

TensorRT-LLMとは、NVIDIA Tensor Core GPU上の最新のLLMにおいて推論パフォーマンスを高速化し最適化するためのオープンソースライブラリです

人工知能(AI)の大規模言語モデル(LLM)は、テキストを生成したり、言語を翻訳したり、さまざまな形式の創造的な素材を書い...

データサイエンス

「マシンの学習を忘れることを学ぶ」

現代のテクノロジーの世界では、機械学習について聞かない人を見つけるのは困難でしょう過去10年間、この研究分野はとてもト...