メルティングポット:マルチエージェント強化学習の評価スイート

'Melting Pot Evaluation Suite for Multi-Agent Reinforcement Learning'

現実世界で展開されるテクノロジーは、必ず予期せぬ課題に直面します。これらの課題は、テクノロジーが開発された環境と展開される環境が異なるために生じます。技術が成功裏に移植された場合、それを一般化したと言います。自律走行車のようなマルチエージェントシステムでは、一般化の困難性の可能性が2つあります:(1)気候や照明の変化などの物理環境の変動、および(2)他の相互作用する個体の行動の変動などの社会環境の変動の2つです。社会環境の変動を処理することは、物理環境の変動を処理することと同じくらい重要ですが、これについてはほとんど研究されていません。

社会環境の一例として、自動運転車が他の車との道路上でどのように相互作用するかを考えてみましょう。各車はできるだけ早く自分の乗客を目的地に運びたいというインセンティブを持っています。しかし、この競争は不適切な調整(道路の混雑)につながり、誰にとっても悪影響を及ぼします。車が協力的に動作すると、より多くの乗客がより迅速に目的地に到着する可能性があります。この衝突は社会的ジレンマと呼ばれます。

ただし、すべての相互作用が社会的ジレンマではありません。たとえば、オープンソースソフトウェアでは相乗効果のある相互作用があり、スポーツでは零和ゲームの相互作用があり、調整問題はサプライチェーンの核心です。これらの状況をナビゲートするには、非常に異なるアプローチが必要です。

マルチエージェント強化学習は、人工的なエージェントが互いにおよび未知の個人(ユーザーなど)とどのように相互作用するかを探索するためのツールを提供します。このクラスのアルゴリズムは、社会的な一般化能力をテストする際に他のアルゴリズムよりも優れた性能を発揮することが期待されています。しかし、これを評価するための体系的なベンチマークは、今まで存在しませんでした。

青:訓練されたエージェントの焦点集団、赤:事前トレーニングされたボットの背景集団

ここでは、マルチエージェント強化学習のためのスケーラブルな評価スイートであるMelting Potを紹介します。Melting Potは、既知の個人と未知の個人の両方を含む新しい社会的状況への一般化を評価し、協力、競争、欺瞞、報い、信頼、頑固さなどのさまざまな社会的相互作用をテストするために設計されています。Melting Potは、エージェントを訓練するための21のMARL「基板」(マルチエージェントゲーム)と、これらの訓練されたエージェントを評価するための85以上のユニークなテストシナリオを研究者に提供します。これらのテストシナリオでのエージェントのパフォーマンスは、エージェントが以下のような社会的状況でうまく機能するかどうかを定量化します:

  • 個々の相互依存する社会的状況で優れたパフォーマンスを発揮する
  • 訓練中に見たことのない未知の個人と効果的に相互作用する
  • 普遍化テストに合格する:「皆がそう行動したらどうなるだろうか?」という問いに肯定的に答える

その結果得られるスコアは、異なるマルチエージェント強化学習アルゴリズムを新しい社会的状況への一般化能力に基づいてランク付けするために使用できます。

Melting Potがマルチエージェント強化学習の標準ベンチマークとなることを願っています。私たちはそれを維持し、今後数年間でさらに多くの社会的相互作用と一般化シナリオをカバーするために拡張する予定です。

GitHubのページから詳細を学ぶ。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIアシスタントと共に気候変動に備える」

この記事では、優れたProbable Futures APIと新しいOpenAI Assistants APIからの気候変動データを使用して、対話型AIエージェ...

機械学習

NVIDIA NeMoを使ったスタートアップが生成AIの成功ストーリーをスタートさせました

機械学習は、ワシーム・アルシークが大学の教科書を読み進めるのを助けました。現在、彼は生成型AIを活用し、数百の企業向け...

AI研究

「GoogleはDeepfakeへの対策として、AIによって生成された画像にウォーターマークを付けます」

誤解を招くコンテンツの急増に対抗する重要な一歩として、Googleは革新的なソリューションを導入し、ディープフェイクに対す...

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...

データサイエンス

テキストデータのチャンキング方法-比較分析

自然言語処理(NLP)における「テキストチャンキング」プロセスは、非構造化テキストデータを意味のある単位に変換することを...

AIニュース

「アルトマンのスティーブ・ジョブズモーメントとしてのOpenAIのCEO」

数日前、愛好家や専門家たちはOpenAIのDevDay、GPT-5、そしてMicrosoftとの資金提携について議論しました。人工知能の未来は...