スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

スタンフォード大学の研究者がMLAgentBenchを提案:AI研究エージェントのベンチマーク用機械学習タスクスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた状態で、人間の研究者は未知の領域を探索し、その過程で画期的な発見をします。今では、同様の能力を持つAI研究エージェントを構築することが可能かどうかが研究されています。

オープンエンドの意思決定と環境との自由な相互作用は、パフォーマンス評価に困難をもたらします。これらのプロセスは時間がかかる、リソースを消費する、量化が難しいといった特徴を持っています。

自由な形式の意思決定能力を持つAI研究エージェントを評価するために、スタンフォード大学の研究者らはMLAgentBenchを提案しています。MLAgentBenchの核となるアイデアは、よく範囲のある実行可能な研究課題において、研究エージェントを自動的に評価するための一般的なフレームワークを提供することです。具体的には、各研究課題にはタスクの説明と必要なファイルのリストが与えられます。これらを持つ研究エージェントは、読み書きやコード実行などのタスクを人間の研究者と同様に実行することができます。エージェントの行動と作業スペースの仮間スナップショットは、評価のための相互作用トレースの一部として収集されます。

研究チームは、研究エージェントの以下の3つの観点で評価しています。1) 目標達成能力(成功率や平均改善量など)、2) 推論と研究プロセス(結果の達成方法やミス)、3) 効率性(目標達成に必要な時間や努力など)。

チームは、さまざまな分野をカバーする15のMLエンジニアリングプロジェクトのコレクションを用意し、実行が簡単でコストが低い実験を行いました。エージェントが有効な提出を行えるように、これらの活動のいくつかのための単純な初期プログラムを提供しています。例えば、CIFAR10データセットで畳み込みニューラルネットワーク(CNN)モデルのパフォーマンスを10%以上向上させるといったチャレンジがあります。研究エージェントの汎化能力をテストするために、CIFAR10などのよく知られたデータセットだけでなく、数か月前のKaggleチャレンジや新しい研究データセットも含まれています。彼らの長期目標は、現在のタスクコレクションにさまざまな分野の科学的な研究課題を含めることです。

最近の大規模な言語モデル(LLM)に基づく生成エージェントの進化を考慮して、チームは簡単なLLMベースの研究エージェントを設計しました。このエージェントは研究計画を自動的に作成し、スクリプトを読み書きし、実験を行い、結果を解釈し、次の実験に進むことができます。テキスト以外の行動やリアクションからもわかるように、LLMは日常的な常識から特定の科学領域まで幅広い前提知識を持ち、優れた推論とツール使用能力を持っています。高いレベルでは、利用可能な情報や前のステップに基づいて自動的に生成されるプロンプトを使って次のアクションをLLMに尋ねるだけです。このプロンプトのデザインは、目標達成のための他のLLMベースの生成エージェントの作成方法(推論、反省、ステップバイステップの計画、研究ログの管理など)から大いに影響を受けています。

チームはまた、AI研究エージェントの信頼性と正確性を高めるために、階層的な行動と事実チェックのステージを使用しています。MLAgentBenchでAI研究エージェントをテストした結果、GPT-4を基にして高い解釈可能性の動的な研究計画を作成し、多くのタスクで優れたMLモデルを構築できることがわかりましたが、いくつかの欠点もまだあります。例えば、ogbn-arxivデータセット上でのモデルの改良など、確立されたタスクでは基準予測に対して平均48.18%の改善を達成しています。

ただし、チームはKaggleチャレンジやBabyLMに対して研究エージェントの成功率が0〜30%に過ぎないことに注目しています。その後、他の変更が加えられたエージェントとの比較で研究エージェントのパフォーマンスを評価しました。結果は、記憶ストリームを継続することが単純なタスクのパフォーマンスを阻害する可能性があることを示しています。これは、それが気を散らされる要因となり、複雑な変更を探求するエージェントを奨励しているためかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

MITによる新しい機械学習の研究は、大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法を示しています

大規模言語モデル(LLMs)は最近、驚くべきスキルを発揮しています。GPTのトランスフォーマーアーキテクチャに基づいて構築さ...

データサイエンス

「データサイエンスプロジェクトを変革する:YAMLファイルに変数を保存する利点を見つけよう」

このブログ投稿では、データサイエンスプロジェクトで変数、パラメータ、ハイパーパラメータを保存するための中心的なリポジ...

機械学習

3Dボディモデルに音声が付きました:Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介

知識とコンピューテーションヴィジョン、人工知能(AI)の補完分野の進展により、人間の行動を再現し理解するインテリジェン...

機械学習

百度Ernie 3.5が中国語AIのチャンピオンとして登場:しかし、ChatGPTより本当に優れているのか?

中国語AI市場における興奮すべきブレークスルーとして、有名な検索エンジンプロバイダであるBaiduが最新モデルであるErnie 3....

データサイエンス

スケールにおける機械学習:モデルとデータの並列化

モデルがますます複雑になり、データセットが巨大になるにつれて、計算ワークロードを効率的に分散する方法の必要性はますま...

データサイエンス

AIとアクセシビリティを活用して、融合エネルギーの早期実現を目指す

「MITプラズマ科学・融合センターは、融合データへのアクセスを向上させ、労働力の多様性を高めるためにDoEの支援を受けるこ...