CMUの研究者が「WebArena」を導入:有用なエージェントのベンチマーキングを行うための4つ以上の現実的で再現可能なWeb環境となる4つ以上の現実的なWebアプリを備えたもの

CMU researchers introduce WebArena a realistic and reproducible web environment with four or more realistic web apps for benchmarking useful agents.

効率の向上とより広範なアクセシビリティの可能性を考慮すると、人間の自然言語の指示によって通常のタスクを実行できる自律エージェントは、人間のスキルをかなり補完することができます。これらの独立したエージェントの潜在能力を十分に活用するためには、実際的かつ再現可能な環境での彼らの振る舞いを理解することが重要です。

現在の設定は、複雑な問題を過度に簡素化しようとする傾向があります。そのため、多くの環境の特徴は、現実世界の相当するものの水を差したバージョンであり、作業の多様性に不足が生じています。他の場合では、環境は静的なリソースとして提示され、データ収集中にキャッシュされた状態のみを探索するエージェントの能力を制限します。

カーネギーメロン大学とInspired Cognitionによる新しい研究では、特定のタスクを実行するために自律エージェントを訓練するために使用できる再現可能な条件を持つシミュレートされたWeb環境であるWebArenaを紹介しています。この環境は、電子商取引、オンラインディスカッションフォーラム、共同ソフトウェア開発、エンタープライズコンテンツ管理の各分野に対応した4つのライブセルフホストWebアプリで構成されています。WebArenaには、マップ、計算機、メモ帳など、最も人間らしいタスク実行を容易にするためのいくつかの便利なツールも含まれています。最後に、WebArenaは、統合開発環境の使用ガイドや英語版Wikipediaなどのより専門的なサイトなど、豊富な補足資料によってサポートされています。これらのウェブサイトのコンテンツは、オフラインの対応物から直接抽出されているため、正確で最新のものです。gym APIを使用したDockerコンテナがホスティングサービスを提供し、WebArenaは使いやすく再現可能です。

WebArenaに加えて、彼らは812の将来志向のウェブベースのタスクの完全なベンチマークもオープンソース化しています。各アクティビティは、人間が一般的に採用する抽象的な言語使用パターンに基づいてモデル化され、自然言語の目標として説明されます。彼らはこれらの機能がどれだけうまく機能するかを分析することに焦点を当てています。プレーンなアクションのシーケンスを比較するよりも正確であり、十分に複雑なタスクでは同じ目標に対して複数の正当なルートが存在することを考慮できる評価です。

チームは、自然言語のコマンドに対してウェブベースの操作を実行できる多くのエージェントのパフォーマンスを比較するために、この基準を利用しています。これらのエージェントを作成するためには、現在の観測と履歴に基づいて次のステップを予測するエージェントから、ステップバイステップの推論などのより複雑な方法を使用するエージェントまで、さまざまな方法が使用されます。GPT-3.5やGPT-4などの強力な大規模言語モデル(LLM)は、フューショットのインコンテキスト学習アプローチでこれらのエージェントを作成します。その結果、実験では最も優れたGPT-4エージェントでも全体のタスク成功率は10.59%にとどまりました。現在のLLMの欠点として、積極的な探索と失敗の回復などの重要な機能が欠けていることが、複雑なタスクの効果的な完了の原因であると仮説を立てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Pythonにおける顧客セグメント分析:実践的なアプローチ」

「顧客基盤をより良く理解したいと思っていますか? RFM分析とK-MeansクラスタリングをPythonで活用して、顧客セグメンテーシ...

人工知能

2023年の音楽制作に最適なAIツール

新しい音楽の創作からアルバム(または雑誌)のカバーデザインまで、AIは既にアーティストの作品の開発とプロモーションに大...

機械学習

「TADAをご紹介します 口述された説明を表現豊かな3Dアバターに変換するための強力なAI手法」

大規模言語モデルと拡散モデルの開発により、テキストから画像へのモデルを異なる可能性のあるニューラル3Dシーン表現と統合...

機械学習

「深層学習による遺伝子制御の解明:オルタナティブスプライシングの理解に向けた新たなAIアプローチ」

オルタナティブスプライシングは、遺伝子の制御において基本的なプロセスであり、単一の遺伝子が複数のmRNAバリアントと様々...