スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート
スタンフォード大学の研究者がMLAgentBenchを提案:AI研究エージェントのベンチマーク用機械学習タスクスイート
人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた状態で、人間の研究者は未知の領域を探索し、その過程で画期的な発見をします。今では、同様の能力を持つAI研究エージェントを構築することが可能かどうかが研究されています。
オープンエンドの意思決定と環境との自由な相互作用は、パフォーマンス評価に困難をもたらします。これらのプロセスは時間がかかる、リソースを消費する、量化が難しいといった特徴を持っています。
自由な形式の意思決定能力を持つAI研究エージェントを評価するために、スタンフォード大学の研究者らはMLAgentBenchを提案しています。MLAgentBenchの核となるアイデアは、よく範囲のある実行可能な研究課題において、研究エージェントを自動的に評価するための一般的なフレームワークを提供することです。具体的には、各研究課題にはタスクの説明と必要なファイルのリストが与えられます。これらを持つ研究エージェントは、読み書きやコード実行などのタスクを人間の研究者と同様に実行することができます。エージェントの行動と作業スペースの仮間スナップショットは、評価のための相互作用トレースの一部として収集されます。
- 「UCSDとByteDanceの研究者が、アクターズネルフ(ActorsNeRF)を発表:未知の俳優にも対応するアニメータブルな人間アクターネルフモデルで、フューショット設定の環境に汎化する」という意味です
- 「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」
- マンチェスター大学の研究者たちは、MentalLLaMAを導入しましたこれは、読みやすい精神健康分析のためのオープンソースLLMシリーズで、指導に従う能力を持っています
研究チームは、研究エージェントの以下の3つの観点で評価しています。1) 目標達成能力(成功率や平均改善量など)、2) 推論と研究プロセス(結果の達成方法やミス)、3) 効率性(目標達成に必要な時間や努力など)。
チームは、さまざまな分野をカバーする15のMLエンジニアリングプロジェクトのコレクションを用意し、実行が簡単でコストが低い実験を行いました。エージェントが有効な提出を行えるように、これらの活動のいくつかのための単純な初期プログラムを提供しています。例えば、CIFAR10データセットで畳み込みニューラルネットワーク(CNN)モデルのパフォーマンスを10%以上向上させるといったチャレンジがあります。研究エージェントの汎化能力をテストするために、CIFAR10などのよく知られたデータセットだけでなく、数か月前のKaggleチャレンジや新しい研究データセットも含まれています。彼らの長期目標は、現在のタスクコレクションにさまざまな分野の科学的な研究課題を含めることです。
最近の大規模な言語モデル(LLM)に基づく生成エージェントの進化を考慮して、チームは簡単なLLMベースの研究エージェントを設計しました。このエージェントは研究計画を自動的に作成し、スクリプトを読み書きし、実験を行い、結果を解釈し、次の実験に進むことができます。テキスト以外の行動やリアクションからもわかるように、LLMは日常的な常識から特定の科学領域まで幅広い前提知識を持ち、優れた推論とツール使用能力を持っています。高いレベルでは、利用可能な情報や前のステップに基づいて自動的に生成されるプロンプトを使って次のアクションをLLMに尋ねるだけです。このプロンプトのデザインは、目標達成のための他のLLMベースの生成エージェントの作成方法(推論、反省、ステップバイステップの計画、研究ログの管理など)から大いに影響を受けています。
チームはまた、AI研究エージェントの信頼性と正確性を高めるために、階層的な行動と事実チェックのステージを使用しています。MLAgentBenchでAI研究エージェントをテストした結果、GPT-4を基にして高い解釈可能性の動的な研究計画を作成し、多くのタスクで優れたMLモデルを構築できることがわかりましたが、いくつかの欠点もまだあります。例えば、ogbn-arxivデータセット上でのモデルの改良など、確立されたタスクでは基準予測に対して平均48.18%の改善を達成しています。
ただし、チームはKaggleチャレンジやBabyLMに対して研究エージェントの成功率が0〜30%に過ぎないことに注目しています。その後、他の変更が加えられたエージェントとの比較で研究エージェントのパフォーマンスを評価しました。結果は、記憶ストリームを継続することが単純なタスクのパフォーマンスを阻害する可能性があることを示しています。これは、それが気を散らされる要因となり、複雑な変更を探求するエージェントを奨励しているためかもしれません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- MITによる新しい機械学習の研究は、大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法を示しています
- 「エアガーディアンと出会ってください:目の追跡技術を使用して、MITの研究者たちが開発した人間のパイロットがどこを見ているかを追跡する人工知能システム」
- UC BerkeleyとUCSFの研究者が神経ビデオ生成を革新します: 高度な空時的ダイナミクスのためのLLM-Groundedビデオ拡散(LVD)の紹介
- 新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法
- ノースウェスタン大学の研究者たちは、最初の人工知能(AI)システムを開発しましたこのシステムは、ゼロからロボットを知的に設計することができます
- スタンフォード大学研究者が提案するMAPTree:強化された堅牢性とパフォーマンスを備えたベイジアンアプローチに基づく決定木生成
- ITUデンマークの研究者は、神経発達プログラムを紹介:生物の成長と人工ニューラルネットワークとの間のギャップを埋める