CMUの研究者が「WebArena」を導入:有用なエージェントのベンチマーキングを行うための4つ以上の現実的で再現可能なWeb環境となる4つ以上の現実的なWebアプリを備えたもの

CMU researchers introduce WebArena a realistic and reproducible web environment with four or more realistic web apps for benchmarking useful agents.

効率の向上とより広範なアクセシビリティの可能性を考慮すると、人間の自然言語の指示によって通常のタスクを実行できる自律エージェントは、人間のスキルをかなり補完することができます。これらの独立したエージェントの潜在能力を十分に活用するためには、実際的かつ再現可能な環境での彼らの振る舞いを理解することが重要です。

現在の設定は、複雑な問題を過度に簡素化しようとする傾向があります。そのため、多くの環境の特徴は、現実世界の相当するものの水を差したバージョンであり、作業の多様性に不足が生じています。他の場合では、環境は静的なリソースとして提示され、データ収集中にキャッシュされた状態のみを探索するエージェントの能力を制限します。

カーネギーメロン大学とInspired Cognitionによる新しい研究では、特定のタスクを実行するために自律エージェントを訓練するために使用できる再現可能な条件を持つシミュレートされたWeb環境であるWebArenaを紹介しています。この環境は、電子商取引、オンラインディスカッションフォーラム、共同ソフトウェア開発、エンタープライズコンテンツ管理の各分野に対応した4つのライブセルフホストWebアプリで構成されています。WebArenaには、マップ、計算機、メモ帳など、最も人間らしいタスク実行を容易にするためのいくつかの便利なツールも含まれています。最後に、WebArenaは、統合開発環境の使用ガイドや英語版Wikipediaなどのより専門的なサイトなど、豊富な補足資料によってサポートされています。これらのウェブサイトのコンテンツは、オフラインの対応物から直接抽出されているため、正確で最新のものです。gym APIを使用したDockerコンテナがホスティングサービスを提供し、WebArenaは使いやすく再現可能です。

WebArenaに加えて、彼らは812の将来志向のウェブベースのタスクの完全なベンチマークもオープンソース化しています。各アクティビティは、人間が一般的に採用する抽象的な言語使用パターンに基づいてモデル化され、自然言語の目標として説明されます。彼らはこれらの機能がどれだけうまく機能するかを分析することに焦点を当てています。プレーンなアクションのシーケンスを比較するよりも正確であり、十分に複雑なタスクでは同じ目標に対して複数の正当なルートが存在することを考慮できる評価です。

チームは、自然言語のコマンドに対してウェブベースの操作を実行できる多くのエージェントのパフォーマンスを比較するために、この基準を利用しています。これらのエージェントを作成するためには、現在の観測と履歴に基づいて次のステップを予測するエージェントから、ステップバイステップの推論などのより複雑な方法を使用するエージェントまで、さまざまな方法が使用されます。GPT-3.5やGPT-4などの強力な大規模言語モデル(LLM)は、フューショットのインコンテキスト学習アプローチでこれらのエージェントを作成します。その結果、実験では最も優れたGPT-4エージェントでも全体のタスク成功率は10.59%にとどまりました。現在のLLMの欠点として、積極的な探索と失敗の回復などの重要な機能が欠けていることが、複雑なタスクの効果的な完了の原因であると仮説を立てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Google Bard vs. ChatGPT ビジネスにおいてどちらのツールが優れているのか?」

「Google Bard」と「ChatGPT」を比較し、強みと弱点を見直して、成功のための完璧なAIツールであるビジネス戦略を向上させる...

機械学習

デバイス上での条件付きテキストから画像生成のための拡散プラグイン

Yang ZhaoとTingbo Houによる投稿、ソフトウェアエンジニア、Core ML 近年、拡散モデルはテキストから画像を生成する際に非常...

機械学習

このAIペーパーは、東京大学で深層学習を超新星シミュレーションの問題に応用しました

東京大学の研究者チームは、3D-Memory In Memory (3D-MIM) と呼ばれる深層学習モデルを開発しました。このモデルは、超新星(S...

AI研究

スタンフォード大学の研究者が『FlashFFTConv』を導入:長いシーケンスのFFT畳み込みを最適化するための新しい人工知能システム

効率的な推論は、機械学習において長いシーケンスを取り扱う上での主要な困難です。最近では、畳み込みがシーケンスモデリン...

機械学習

AIを活用した空中監視:UCSBイニシアチブがNVIDIA RTXを使い、宇宙の脅威を撃退する目的で立ち上がる

数か月ごとに流星群が起こると、観察者は夜空に散らばる流れ星や光の筋が輝く見事な光景を見ることができます。 通常、流星は...

AI研究

スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました

CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシー...