マルチエージェント強化学習における新興の物々交換行動

Emerging Goods Exchange Behavior in Multi-Agent Reinforcement Learning

最近の論文では、ディープ強化学習（deep RL）エージェントの集団が、生産、消費、商品の取引など、マイクロ経済学の振る舞いを学ぶことを探求しています。私たちは、人工エージェントが生産、消費、価格に関して経済的に合理的な意思決定をし、供給と需要の変化に適切に反応することを発見しました。集団は、近くの資源の豊富さを反映した地域の価格に収束し、一部のエージェントはこれらの地域間で商品を輸送し、低価格で購入し高価格で販売することを学びます。この研究は、エージェントが解決方法を学ぶために新しい社会的な課題を導入することにより、より広範なマルチエージェント強化学習の研究のアジェンダを前進させます。

マルチエージェント強化学習の研究の目標は、最終的には人間の社会的知能の全範囲と複雑さにわたって動作するエージェントを生み出すことですが、これまでに考慮されてきたドメインのセットは極めて不完全でした。人間の知能が優れている重要なドメインや、人々が多くの時間とエネルギーを費やすドメインがまだ欠けています。経済学の対象はそのようなドメインの1つです。この研究の目標は、マルチエージェント強化学習の研究者が取引と交渉のテーマに基づいた環境を確立することです。

経済学では、エージェントベースモデルを使用して経済の振る舞いをシミュレートします。これらのエージェントベースモデルは、エージェントがどのように行動するべきかについての経済的な仮定をしばしば組み込みます。本研究では、エージェントが生産、消費、価格に関する経済的な振る舞いを学ぶことができるマルチエージェントのシミュレートされた世界を提案します。これは、マイクロ経済学の入門科目の学生にとって馴染みのある方法で、生産、消費、価格に関する決定を行います。しかし、エージェントはより具体的な思考方法に従って他の選択もしなければなりません。物理的な環境を航行し、果物を摘み取るための木を見つけ、それらを交換するパートナーを見つける必要があります。最近のディープ強化学習の技術の進歩により、プログラマがドメインの知識をエンコードすることなく、これらの振る舞いを学ぶエージェントを作成することが可能になりました。

私たちの「フルーツマーケット」という環境は、エージェントがリンゴとバナナの2種類のフルーツを生産し、消費するマルチプレイヤー環境です。各エージェントは1種類のフルーツの生産に長けていますが、他のフルーツに対しては好みがあります-もしエージェントが交渉や商品の交換を学ぶことができれば、両当事者ともよりよくなります。

フルーツマーケットの例の地図：エージェントは地図上を移動して木からリンゴとバナナを収穫し、お互いと取引し、その後好みのフルーツを消費します。 — **フルーツマーケットの例の地図：**エージェントは地図上を移動して木からリンゴとバナナを収穫し、お互いと取引し、その後好みのフルーツを消費します。

私たちの実験では、現在のディープ強化学習エージェントが取引を学び、供給と需要の変化に対する振る舞いがマイクロ経済学の理論が予測するものと一致することを示しています。次に、この研究を基に、解析モデルでは非常に困難なシナリオを提示し、しかし私たちのディープ強化学習エージェントにとっては簡単なものにします。例えば、各種類のフルーツが異なるエリアで育つ環境では、果物の地元の豊富さに関連する異なる価格領域の出現や、後に一部のエージェントがアービトラージ行動を学び、これらの地域間で果物を輸送することに特化することが観察されます。

新興の供給と需要曲線：この実験では、各地図の位置にリンゴの木（a=x）とバナナの木（b=y）が現れる確率を操作します。これらの結果は、入門マイクロ経済学の講義で提示される理論的な供給と需要曲線を再現しています。 — **新興の供給と需要曲線：**この実験では、各地図の位置にリンゴの木（a=x）とバナナの木（b=y）が現れる確率を操作します。これらの結果は、入門マイクロ経済学の講義で提示される理論的な供給と需要曲線を再現しています。

エージェントベースの計算経済経済学は、経済学の研究において同様のシミュレーションを使用します。この研究では、最新のディープ強化学習の技術が、経済的な知識を組み込むことなく、これらの環境で自身の経験から柔軟に行動することを示しています。これは、強化学習コミュニティの最近のマルチエージェントRLとディープRLの進歩を示し、マルチエージェント技術の経済シミュレーション研究を推進するツールとしての可能性を示しています。

人工一般知能（AGI）への道として、マルチエージェント強化学習の研究は社会的知能のすべての重要なドメインを包括すべきです。しかし、今までに取引、交渉、専門化、消費、生産などの伝統的な経済現象を組み入れていませんでした。この論文はこのギャップを埋め、さらなる研究のためのプラットフォームを提供します。この領域の将来の研究を支援するために、「フルーツマーケット」環境はMelting Potスイートの次のリリースに含まれる予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

マルチエージェント強化学習における新興の物々交換行動

Was this article helpful?

LEGOのコンテストからDeepMindのロボット研究室まで

一般的なエージェント

機械学習

新しい方法：AIによって地図がより没入感あるものになる

「ビジュアルAIがカナダ最大かつ最も賑やかな空港で飛躍する」

なぜBankrateはAI生成記事を諦めたのか

ミシガン州立大学の研究者たちは、規模の大きな一細胞遺伝子発現の分析をサポートするためのPythonライブラリ「DANCE」を開発しました

チューリングのミル：AIスーパーコンピューターが英国の経済エンジンを加速

「FalconAI、LangChain、およびChainlitを使用してチャットボットを作成する」