CMUの研究者が「WebArena」を導入:有用なエージェントのベンチマーキングを行うための4つ以上の現実的で再現可能なWeb環境となる4つ以上の現実的なWebアプリを備えたもの

CMU researchers introduce WebArena a realistic and reproducible web environment with four or more realistic web apps for benchmarking useful agents.

効率の向上とより広範なアクセシビリティの可能性を考慮すると、人間の自然言語の指示によって通常のタスクを実行できる自律エージェントは、人間のスキルをかなり補完することができます。これらの独立したエージェントの潜在能力を十分に活用するためには、実際的かつ再現可能な環境での彼らの振る舞いを理解することが重要です。

現在の設定は、複雑な問題を過度に簡素化しようとする傾向があります。そのため、多くの環境の特徴は、現実世界の相当するものの水を差したバージョンであり、作業の多様性に不足が生じています。他の場合では、環境は静的なリソースとして提示され、データ収集中にキャッシュされた状態のみを探索するエージェントの能力を制限します。

カーネギーメロン大学とInspired Cognitionによる新しい研究では、特定のタスクを実行するために自律エージェントを訓練するために使用できる再現可能な条件を持つシミュレートされたWeb環境であるWebArenaを紹介しています。この環境は、電子商取引、オンラインディスカッションフォーラム、共同ソフトウェア開発、エンタープライズコンテンツ管理の各分野に対応した4つのライブセルフホストWebアプリで構成されています。WebArenaには、マップ、計算機、メモ帳など、最も人間らしいタスク実行を容易にするためのいくつかの便利なツールも含まれています。最後に、WebArenaは、統合開発環境の使用ガイドや英語版Wikipediaなどのより専門的なサイトなど、豊富な補足資料によってサポートされています。これらのウェブサイトのコンテンツは、オフラインの対応物から直接抽出されているため、正確で最新のものです。gym APIを使用したDockerコンテナがホスティングサービスを提供し、WebArenaは使いやすく再現可能です。

WebArenaに加えて、彼らは812の将来志向のウェブベースのタスクの完全なベンチマークもオープンソース化しています。各アクティビティは、人間が一般的に採用する抽象的な言語使用パターンに基づいてモデル化され、自然言語の目標として説明されます。彼らはこれらの機能がどれだけうまく機能するかを分析することに焦点を当てています。プレーンなアクションのシーケンスを比較するよりも正確であり、十分に複雑なタスクでは同じ目標に対して複数の正当なルートが存在することを考慮できる評価です。

チームは、自然言語のコマンドに対してウェブベースの操作を実行できる多くのエージェントのパフォーマンスを比較するために、この基準を利用しています。これらのエージェントを作成するためには、現在の観測と履歴に基づいて次のステップを予測するエージェントから、ステップバイステップの推論などのより複雑な方法を使用するエージェントまで、さまざまな方法が使用されます。GPT-3.5やGPT-4などの強力な大規模言語モデル(LLM)は、フューショットのインコンテキスト学習アプローチでこれらのエージェントを作成します。その結果、実験では最も優れたGPT-4エージェントでも全体のタスク成功率は10.59%にとどまりました。現在のLLMの欠点として、積極的な探索と失敗の回復などの重要な機能が欠けていることが、複雑なタスクの効果的な完了の原因であると仮説を立てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「欠損データの解明:データサイエンティストのための絶対初心者向け入門書」

「欠損データ、欠損データのメカニズム、そして欠損データプロファイリングをこれまでにないほど分かりやすく解説しますデー...

データサイエンス

「DreamBooth:カスタム画像の安定拡散」

イントロダクション クリエイティビティには限界がない、カスタムイメージのための安定拡散技術の世界へようこそ。AIによる画...

データサイエンス

「IoTエッジデバイスのためのクラウドベースのAI/MLサービスの探索」

AIとMLは、自動運転車、ウェブ検索、音声認識などの進歩を可能にしましたIoTデバイスのAIとMLの探求に興味がある場合、お手伝...

データサイエンス

現代のサイバーセキュリティの脅威に対処する効果的な方法

「サイバーセキュリティの脅威は技術の進歩に伴って増加していますこの記事では一般的な脅威の扱い方をカバーします」

機械学習

「パフォーマンスと使いやすさを向上させるための機械学習システムにおけるデザインパターンの探求」

機械学習は、最近の進展と新しいリリースにより、ますます広まっています。AIとMLの人気と需要が高まり、製品レベルのMLモデ...

機械学習

「AIブーム:小規模ビジネスのための生成AI実践ガイド」

近年、世界は人工知能(AI)の分野で驚くべき急速な発展を目撃していますこれは単なるテクノロジートレンドではなく、技術革...