メルティングポット:マルチエージェント強化学習の評価スイート

'Melting Pot Evaluation Suite for Multi-Agent Reinforcement Learning'

現実世界で展開されるテクノロジーは、必ず予期せぬ課題に直面します。これらの課題は、テクノロジーが開発された環境と展開される環境が異なるために生じます。技術が成功裏に移植された場合、それを一般化したと言います。自律走行車のようなマルチエージェントシステムでは、一般化の困難性の可能性が2つあります:(1)気候や照明の変化などの物理環境の変動、および(2)他の相互作用する個体の行動の変動などの社会環境の変動の2つです。社会環境の変動を処理することは、物理環境の変動を処理することと同じくらい重要ですが、これについてはほとんど研究されていません。

社会環境の一例として、自動運転車が他の車との道路上でどのように相互作用するかを考えてみましょう。各車はできるだけ早く自分の乗客を目的地に運びたいというインセンティブを持っています。しかし、この競争は不適切な調整(道路の混雑)につながり、誰にとっても悪影響を及ぼします。車が協力的に動作すると、より多くの乗客がより迅速に目的地に到着する可能性があります。この衝突は社会的ジレンマと呼ばれます。

ただし、すべての相互作用が社会的ジレンマではありません。たとえば、オープンソースソフトウェアでは相乗効果のある相互作用があり、スポーツでは零和ゲームの相互作用があり、調整問題はサプライチェーンの核心です。これらの状況をナビゲートするには、非常に異なるアプローチが必要です。

マルチエージェント強化学習は、人工的なエージェントが互いにおよび未知の個人(ユーザーなど)とどのように相互作用するかを探索するためのツールを提供します。このクラスのアルゴリズムは、社会的な一般化能力をテストする際に他のアルゴリズムよりも優れた性能を発揮することが期待されています。しかし、これを評価するための体系的なベンチマークは、今まで存在しませんでした。

青:訓練されたエージェントの焦点集団、赤:事前トレーニングされたボットの背景集団

ここでは、マルチエージェント強化学習のためのスケーラブルな評価スイートであるMelting Potを紹介します。Melting Potは、既知の個人と未知の個人の両方を含む新しい社会的状況への一般化を評価し、協力、競争、欺瞞、報い、信頼、頑固さなどのさまざまな社会的相互作用をテストするために設計されています。Melting Potは、エージェントを訓練するための21のMARL「基板」(マルチエージェントゲーム)と、これらの訓練されたエージェントを評価するための85以上のユニークなテストシナリオを研究者に提供します。これらのテストシナリオでのエージェントのパフォーマンスは、エージェントが以下のような社会的状況でうまく機能するかどうかを定量化します:

  • 個々の相互依存する社会的状況で優れたパフォーマンスを発揮する
  • 訓練中に見たことのない未知の個人と効果的に相互作用する
  • 普遍化テストに合格する:「皆がそう行動したらどうなるだろうか?」という問いに肯定的に答える

その結果得られるスコアは、異なるマルチエージェント強化学習アルゴリズムを新しい社会的状況への一般化能力に基づいてランク付けするために使用できます。

Melting Potがマルチエージェント強化学習の標準ベンチマークとなることを願っています。私たちはそれを維持し、今後数年間でさらに多くの社会的相互作用と一般化シナリオをカバーするために拡張する予定です。

GitHubのページから詳細を学ぶ。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIの導入障壁:主要な課題と克服方法

人工知能(AI)がビジネスを革新し、効率を高め、生産性を向上させる方法を発見してくださいAI導入の障壁について議論します

AIニュース

「3つの医療機関が生成型AIを使用している方法」

「Med-PaLM 2および他の生成型AIソリューションを使用するGoogle Cloudのヘルスケア顧客を紹介します」

データサイエンス

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に...

コンピュータサイエンス

「アリババは、量子コンピューティングよりもこれを優先します」

中国のテック巨人であるアリババは最近、量子コンピューティング部門を廃止するという戦略的な重点の大幅な転換を発表しまし...

データサイエンス

「機械学習におけるデータの重要性:AI革命の推進力」

マシンラーニングの進歩やAI革命を促進する上でデータの重要な役割を探求し、その意義を明らかにします

AI研究

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エ...