「Googleとトロント大学の研究者が、ライブコンピュータ環境での自律学習とタスク実行のための画期的なゼロショットエージェントを紹介」

「Googleとトロント大学の研究者が画期的なゼロショットエージェントを紹介!ライブコンピュータ環境での自律学習とタスク実行に革新的な取り組み」

“`html

大規模言語モデル(LLM)は、ALFWORLDやALPHACODEなどのさまざまな現場でのアクション製作において、以前の試みで有望な結果を示しています。SAYCAN、REACT、TOOLFORMER、SWIFTSAGEなどの例があります。LLMは、専門家のトレイルを追い、環境の変化を理解し、将来の活動を計画・実施し、APIリクエストを作成するために同様に使用されます。REFLEXIONやSELF-REFINEを含むいくつかの研究は、自己反省の多数のラウンドを繰り返し実行することがタスクの完了を大幅に高めることを示しています。LLMには、環境のフィードバックに基づいて前の実行計画を変更するよう求められます。そのような調整は、次のラウンドのアクションジェネレータのプロンプトに組み込まれます。

最近、MINIWOB ++は、モジュラ化されたコンピューティングワークロードでLLMのパフォーマンスを評価するためのテストベッドとして活用されています。タスクの包括的なトレース例(WebGUM)を使用した直接監督、自己監督、または少数/多数のプロンプティング(SYNAPSE)は、タスクを学習するための標準的な方法です。彼らは、タスク完了率が90%以上である場合の数十のコンピュータジョブを完了し、コンピュータ制御の問題を解決しているようです。ただし、エキスパートトレースの必要性は、エージェントの新しいジョブを学習する能力を制約しています。適切に選択されたトレースをガイドとして使用せずに、エージェントはコンピュータの制御について独立に知識を持ち、それを向上させることができるでしょうか?Google Researchとトロント大学の研究者は、この疑問に答えるために、ゼロショットエージェントを提案しています。

彼らのエージェントは、最新のLLMであるPaLM2の上に構築されており、タスク固有のプロンプトではなく、すべてのアクティビティに対して単一のセットの指示プロンプトを使用しています。また、現代の取り組みであるRCI、ADAPLANNER、SYNAPSEなどは、ユーザーの画面に表示されるデータよりもはるかに多くのデータを含むスクリーン表現を使用する場合があります。たとえば、図1では、LLMに提供されるが画面上に表示されないHTMLに含まれるアイテムが示されています。この新たな知識を任意に使用することで、エージェントのタスク完了能力は向上します。しかし、通常の使用シナリオでは、そのような情報に簡単にアクセスできない場合があり、それに依存することでエージェントの適用範囲が制限される可能性があります。

図1は、画面上の異なる表示を示しています。図1a-1cは、「もっと見る」ボタンを押す前後のソーシャルメディアのタスクを示しています(seed=2)。クリックする前に、HTMLで既にマテリアルが表示されています。図1d-1e:クリックタブ2(seed=0)も同様の問題を抱えています。

MINIWOB ++で評価されるように意図された多数のスクリーンにまたがるかなり難しいジョブ13件が注意深く評価され、そのうち5件には単一の観察で含まれるHTMLがそのような情報を含んでいました。彼らが行った貢献は次のとおりです:まず、以前の研究と比較して、より簡潔な画面描写を採用し、テスト環境をより包括的で現実的なものにします。次に、状態上で実行可能な操作を正確に計画するための簡単で効果的なアクションプランナーを提供します。彼らは、このような「素朴な」アプローチが、最新のLLMの能力を使用して、MINIWOB ++ベンチマークのほとんどの単純なタスクを完了できることを示しています。

エージェントが探索的な失敗から成功裡に学び、より難しいタスクに進むために彼らはReflexionから影響を受けた体系的な思考管理技術を提案しています。彼らのエージェントは、数ラウンドの試行の後、以前の少数/多数ショットの最新技術と同等のパフォーマンスを達成します。彼らのエージェントは、研究によると、コンピュータ制御タスクのためのゼロショットデザインとしては彼らが知る限り初めてのものです。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

学習トランスフォーマーコード入門:パート1 - セットアップ

あなたについてはわかりませんが、コードを見ることの方が論文を読むよりも簡単なことがありますAdventureGPTに取り組んでい...

AIニュース

このAI論文は、それぞれの手のモデルに基づいてアバター間で手のモーションの意味を転送することを目指しています

さまざまな仮想アバターの文脈において、共同話話や手話合成を含む様々なバーチャルアバターのコンテキストで、現実的な手の...

データサイエンス

2023年に知っておくべきトップ10のパワフルなデータモデリングツール

イントロダクション データ駆動型の意思決定の時代において、競争力を維持するために正確なデータモデリングツールを持つこと...

AIニュース

アルゼンチンは初のA.I.選挙ですか?

国の次期大統領を目指す2人の男性は、自己宣伝や相手を攻撃するために人工知能を使用して画像や動画を製作しています

AI研究

メタAIの研究者がスタイルテーラリングを紹介する:高い視覚的品質を持つ特定のドメインにおいて潜在的な拡散モデル(LDMs)を調整するためのテキストからステッカーのレシピ

GenAI、Metaの研究者チームは、ステッカー画像生成のための潜在拡散モデル(LDM)の微調整方法であるStyle Tailoringを紹介し...

人工知能

2023年の最高のAIテキスト生成ツール

ChatGPTのリリース以来、AIテキスト生成器は頻繁にニュースになっています。適切に訓練されたツールをプロンプトすると、AIテ...