AgentBenchをご紹介します:さまざまな状況で大規模な言語モデルをエージェントとして評価するために開発された多次元ベンチマークです

AgentBenchは、言語モデルをエージェントとして評価するために開発された多次元ベンチマークです

大規模言語モデル(LLM)は登場し、進化し、人工知能の分野に複雑さの新たなレベルを加えました。徹底的なトレーニング方法により、これらのモデルは驚くべき自然言語処理、自然言語理解、自然言語生成のタスクをマスターしました。質問に答える、自然言語の推論を理解する、要約するなどのタスクです。また、NLPに一般的に関連付けられていない、人間の意図を把握し、指示を実行するなどの活動も達成しています。

LLMを使用して自律的な目標を達成するAutoGPT、BabyAGI、AgentGPTなどのアプリケーションは、すべてのNLPの進歩のおかげで可能になりました。これらのアプローチは一般の人々から多くの関心を集めていますが、LLMを評価するための標準化されたベースラインの欠如は依然として重要な障害となっています。過去にはテキストベースのゲーム環境が言語エージェントを評価するために使用されてきましたが、それらは制約された離散的な行動空間を持つため、しばしば欠点があります。また、それらは主にモデルの常識的な根拠の能力を評価します。

エージェントのための既存のベンチマークのほとんどは特定の環境に焦点を当てているため、さまざまなアプリケーションコンテキストでLLMを徹底的に評価する能力が制限されています。これらの問題に対処するために、清華大学、オハイオ州立大学、UCバークレーの研究者チームがエージェントベンチを導入しました。エージェントベンチは、さまざまな設定でLLMをエージェントとして評価するために作成された多次元ベンチマークです。

エージェントベンチには8つの異なる設定が含まれており、そのうち5つは新しいものです。横思考パズル(LTP)、知識グラフ(KG)、デジタルカードゲーム(DCG)、オペレーティングシステム(OS)、データベース(DB)、知識グラフです。最後の3つの環境(家事(Alfworld)、オンラインショッピング(WebShop)、ウェブブラウジング(Mind2Web))は既存のデータセットから適応されています。これらの環境はすべて、テキストベースのLLMが自律的なエージェントとして行動できる対話的な状況を表現するよう慎重に設計されています。これらは、コーディング、知識獲得、論理的な推論、指示の従順さなど、主要なLLMのスキルを徹底的に評価するための厳密なテストベッドとして機能し、エージェントとLLMの両方を評価するためのものです。

研究者はAgentBenchを使用して、APIベースのモデルやオープンソースのモデルを含む25の異なるLLMを徹底的に分析し、評価しました。調査結果は、GPT-4などのトップモデルが幅広い実世界のタスクをうまくこなすことを示しており、高度に能力が高く、常に適応するエージェントの作成の可能性を示唆しています。ただし、これらのトップAPIベースのモデルは、オープンソースの同等モデルよりも明らかに性能が劣っています。オープンソースのLLMは他のベンチマークでは優れたパフォーマンスを発揮しますが、AgentBenchの困難なタスクが提示されると、大きな困難に直面します。これは、オープンソースのLLMの学習能力を向上させるための追加の取り組みが必要であることを強調しています。

貢献は以下のようにまとめられます:

  1. AgentBenchは、標準化された評価手順を定義し、LLMをエージェントとして評価する革新的なコンセプトを導入する徹底的なベンチマークです。それは8つの本物の環境を統合し、実世界の状況をシミュレートすることで、LLMのさまざまな能力を評価するための有用なプラットフォームを提供します。
  2. この研究では、AgentBenchを使用して25の異なるLLMを徹底的に評価し、主要な商用APIベースのLLMとオープンソースの代替品との間に大きなパフォーマンスの差があることを明らかにしました。この評価は、LLM-as-Agentの現状を強調し、改善の余地がある領域を特定しています。
  3. この研究では、AgentBench評価手順のカスタマイズを容易にする「API&Docker」相互作用パラダイムに基づいた統合ツールセットも提供されています。このツールセットの提供は、関連するデータセットと環境とともに、LLMの研究開発における共同研究と開発を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「転移学習を探求しましょう...」(Ten'i gakushū o tankyū shimashou...)

転移学習については、多くの定義があります基本的には、事前学習済みモデルの知識を活用して新しい問題を解決することを指し...

AIテクノロジー

「Voicemod AIで自分自身のAIボイスを作成しましょう」

自分自身と会話できる世界を想像してみてください。実際には、あなたの声はあなたが望むものになることができます。それは、V...

データサイエンス

デコード Transformersを平易な英語で説明します

コード、数学、またはキー、クエリ、値の言及なし

人工知能

AIの創造的かつ変革的な可能性

ジェームズ・マニカ氏は、AIと創造性についてカンヌライオンズフェスティバルで講演しました彼の発言の抜粋を読んでください

データサイエンス

なぜハイプが重要なのか:AIについて現実的な考え方が必要

ELIZAはChatGPTにいくつかの類似点を持つ初期のチャットボットでしたなぜこの興奮が重要なのでしょうか?船を発明すると、船...

人工知能

RAPIDS:簡単にMLモデルを加速するためにGPUを使用する

はじめに 人工知能(AI)がますます成長するにつれて、より高速かつ効率的な計算能力の需要が高まっています。機械学習(ML)...