スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

スタンフォード大学の研究者がMLAgentBenchを提案:AI研究エージェントのベンチマーク用機械学習タスクスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた状態で、人間の研究者は未知の領域を探索し、その過程で画期的な発見をします。今では、同様の能力を持つAI研究エージェントを構築することが可能かどうかが研究されています。

オープンエンドの意思決定と環境との自由な相互作用は、パフォーマンス評価に困難をもたらします。これらのプロセスは時間がかかる、リソースを消費する、量化が難しいといった特徴を持っています。

自由な形式の意思決定能力を持つAI研究エージェントを評価するために、スタンフォード大学の研究者らはMLAgentBenchを提案しています。MLAgentBenchの核となるアイデアは、よく範囲のある実行可能な研究課題において、研究エージェントを自動的に評価するための一般的なフレームワークを提供することです。具体的には、各研究課題にはタスクの説明と必要なファイルのリストが与えられます。これらを持つ研究エージェントは、読み書きやコード実行などのタスクを人間の研究者と同様に実行することができます。エージェントの行動と作業スペースの仮間スナップショットは、評価のための相互作用トレースの一部として収集されます。

研究チームは、研究エージェントの以下の3つの観点で評価しています。1) 目標達成能力(成功率や平均改善量など)、2) 推論と研究プロセス(結果の達成方法やミス)、3) 効率性(目標達成に必要な時間や努力など)。

チームは、さまざまな分野をカバーする15のMLエンジニアリングプロジェクトのコレクションを用意し、実行が簡単でコストが低い実験を行いました。エージェントが有効な提出を行えるように、これらの活動のいくつかのための単純な初期プログラムを提供しています。例えば、CIFAR10データセットで畳み込みニューラルネットワーク(CNN)モデルのパフォーマンスを10%以上向上させるといったチャレンジがあります。研究エージェントの汎化能力をテストするために、CIFAR10などのよく知られたデータセットだけでなく、数か月前のKaggleチャレンジや新しい研究データセットも含まれています。彼らの長期目標は、現在のタスクコレクションにさまざまな分野の科学的な研究課題を含めることです。

最近の大規模な言語モデル(LLM)に基づく生成エージェントの進化を考慮して、チームは簡単なLLMベースの研究エージェントを設計しました。このエージェントは研究計画を自動的に作成し、スクリプトを読み書きし、実験を行い、結果を解釈し、次の実験に進むことができます。テキスト以外の行動やリアクションからもわかるように、LLMは日常的な常識から特定の科学領域まで幅広い前提知識を持ち、優れた推論とツール使用能力を持っています。高いレベルでは、利用可能な情報や前のステップに基づいて自動的に生成されるプロンプトを使って次のアクションをLLMに尋ねるだけです。このプロンプトのデザインは、目標達成のための他のLLMベースの生成エージェントの作成方法(推論、反省、ステップバイステップの計画、研究ログの管理など)から大いに影響を受けています。

チームはまた、AI研究エージェントの信頼性と正確性を高めるために、階層的な行動と事実チェックのステージを使用しています。MLAgentBenchでAI研究エージェントをテストした結果、GPT-4を基にして高い解釈可能性の動的な研究計画を作成し、多くのタスクで優れたMLモデルを構築できることがわかりましたが、いくつかの欠点もまだあります。例えば、ogbn-arxivデータセット上でのモデルの改良など、確立されたタスクでは基準予測に対して平均48.18%の改善を達成しています。

ただし、チームはKaggleチャレンジやBabyLMに対して研究エージェントの成功率が0〜30%に過ぎないことに注目しています。その後、他の変更が加えられたエージェントとの比較で研究エージェントのパフォーマンスを評価しました。結果は、記憶ストリームを継続することが単純なタスクのパフォーマンスを阻害する可能性があることを示しています。これは、それが気を散らされる要因となり、複雑な変更を探求するエージェントを奨励しているためかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「アウトライア検出手法の比較」

外れ値検出は、与えられたデータセット内の異常値(珍しい観測値)を特定するための教師なしの機械学習タスクですこのタスク...

AI研究

このAI研究は、ITオペレーション向けの新しい大規模言語モデルであるOwlを紹介します

自然言語処理(NLP)と人工知能(AI)の絶え間なく進化する風景の中で、大規模言語モデル(LLM)は、さまざまなNLPのタスクで...

機械学習

Luma AIがGenieを発売:テキストから3Dオブジェクトを作成できる新しい3D生成AIモデル

3Dモデリングでは、リアルな3Dオブジェクトの作成はしばしば複雑で時間のかかる作業でした。人々は専門のソフトウェアを使い...

機械学習

「UniDetectorであなたが望むものを検出しましょう」

深層学習とAIは、特に検出モデルにおいて、近年驚異的な進歩を遂げてきました。しかし、これらの素晴らしい進展にもかかわら...

AIニュース

テクノロジー・イノベーション・インスティテュートは、最新鋭のFalcon LLM 40BファウンデーションモデルをAmazon SageMakerでトレーニングします

このブログ投稿は、AI-Cross Centerユニットの執行役員であり、TIIのLLMプロジェクトのプロジェクトリーダーであるDr. Ebtesa...

機械学習

メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤となる多言語・マルチタスクモデルです

相互作用がますますグローバル化する世界において、多言語を話すことは隔たりを埋め、理解を促進し、様々な機会の扉を開くこ...