「DeepMindの研究者たちは、AlphaStar Unpluggedを紹介しました:リアルタイムストラテジーゲームStarCraft IIの大規模なオフライン強化学習において、飛躍的な進歩を遂げました」

DeepMindの研究者はAlphaStar Unpluggedを紹介し、StarCraft IIのオフライン強化学習で大きな進歩を達成した

ゲームは長い間、人工知能(AI)システムの能力を評価するための重要なテスト場として機能してきました。AI技術が進化するにつれて、研究者たちは現実世界の課題に関連するさまざまな知能の側面を評価するためにより複雑なゲームを求めてきました。リアルタイム戦略(RTS)ゲームであるStarCraftは、その複雑なゲームプレイによりAI研究の「グランドチャレンジ」として浮上しており、その複雑さに対処するためのAI技術の限界を押し広げています。

Atari、Mario、Quake III Arena Capture the Flag、Dota 2などのオンライン強化学習(RL)に基づくビデオゲームの早期のAIの達成とは対照的に、これらのゲームはしばしばゲームルールを制約したり、超人的な能力を提供したり、簡略化されたマップを利用したりすることが多かったため、StarCraftの複雑さはAIの手法にとって困難な障害となってきました。しかし、これらのオンライン強化学習(RL)アルゴリズムは、この領域で大きな成功を収めています。ただし、その対話的な性質は、現実世界の応用において高い対話と探索を要求し、課題を提起します。

この研究は、オフラインRLへの変革的なシフトを紹介し、エージェントが固定されたデータセットから学習できるようにすることで、より実用的で安全なアプローチを可能にしています。オンラインRLは対話的なドメインで優れている一方、オフラインRLは既存のデータを活用して展開可能なポリシーを作成します。DeepMindの研究者によるAlphaStarプログラムの導入は、トッププロのStarCraftプレイヤーに初めて勝利した最初のAIとなり、StarCraft IIのゲームプレイを習得するために、教師あり学習と強化学習によってトレーニングされた深層ニューラルネットワークを使用しました。

StarCraft IIの人間のプレイヤーリプレイの広範なデータセットを活用することで、このフレームワークは直接の環境との対話を必要とせずにエージェントのトレーニングと評価を可能にします。StarCraft IIは、部分観測性、確率性、および多エージェントダイナミクスなどの特徴的な課題を持つため、オフラインRLアルゴリズムの能力を試す理想的なテスト場となっています。 “AlphaStar Unplugged”は、従来のオンラインRLメソッドとオフラインRLのギャップを埋めることで、StarCraft IIのような複雑な一部観測ゲームに適したベンチマークを確立します。

“AlphaStar Unplugged”の核となる方法論は、この厳しいオフラインRLベンチマークを確立するためのいくつかの重要な貢献に焦点を当てています:

  1. トレーニングセットアップでは、固定されたデータセットと定義済みのルールを使用して、方法間の公平な比較を確保しました。
  2. エージェントのパフォーマンスを正確に測定するための新しい評価指標セットが導入されました。
  3. 実験の出発点として、調整が行われたベースラインエージェントの範囲が提供されました。
  4. StarCraft IIの効果的なエージェントを構築するために必要なかなりのエンジニアリング努力を認識し、論文で詳細に説明されているすべてのエージェントの基盤となる調整された振る舞いクローニングエージェントが提供されました。

“AlphaStar Unplugged”のアーキテクチャには、ベースラインの比較とメトリックの評価のためのいくつかの参照エージェントが含まれています。 StarCraft II APIへの入力は、ベクトル、ユニット、および特徴プレーンの3つのモダリティに基づいて構造化されています。アクションは、関数、遅延、キューイング、リピート、ユニットタグ、ターゲットユニットタグ、およびワールドアクションの7つのモダリティで構成されています。マルチレイヤパーセプトロン(MLP)はベクトル入力をエンコードおよび処理し、トランスフォーマはユニット入力を処理し、残差畳み込みネットワークは特徴プレーンを管理します。モダリティは、ユニットの散乱、ベクトルの埋め込み、畳み込みの再形成、およびメモリの使用を通じて相互に接続されています。メモリはベクトルモダリティに組み込まれており、アクションのサンプリングと並行して値関数が使用されています。

実験結果は、オフラインRLアルゴリズムの素晴らしい成果を強調し、以前のリーディングエージェントであるAlphaStar Supervisedエージェントに対して90%の勝率を達成しています。特筆すべきは、このパフォーマンスがオフラインデータの利用だけで実現されていることです。研究者たちは、彼らの研究が大規模なオフライン強化学習研究を大幅に前進させると期待しています。

行列は、0から100の間でスケーリングされた参照エージェントの正規化された勝率を示しています。引き分けは合計に影響を与えることに注意してください。AS-SUPは元のAlphaStar Supervisedエージェントを表しています。

結論として、DeepMindの「AlphaStar Unplugged」は、オフライン強化学習の限界を押し広げる前例のないベンチマークを紹介しています。StarCraft IIの複雑なゲームダイナミクスを利用することで、このベンチマークはRL研究の改良されたトレーニング手法とパフォーマンス指標の舞台を築きます。さらに、オフラインRLの約束を示し、シミュレートされた環境と現実世界の応用のギャップを埋めるためのより安全かつ実用的なトレーニングRLエージェントのアプローチを提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

「言語モデルは放射線科を革新することができるのか?Radiology-Llama2に会ってみてください:指示調整というプロセスを通じて特化した大規模な言語モデル」

トランスフォーマーをベースとした大規模言語モデル(LLM)は、ChatGPTやGPT-4などを含むトランスフォーマーに基づく自然言語...

機械学習

「ChatGPTは私たちを出し抜いているのか? チューリングテストの視点からの探求」

「機械は思考することができるのか?この記事は、チャットGPTの性能をチューリングテストが設定した厳しい基準に基づいて調査...

機械学習

TensorFlowを使用して責任あるAIを構築する方法は?

イントロダクション 人工知能(AI)は、今週リリースされる新しいAIアプリ、機能、プラットフォームが数百あるほど、前例のな...

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...

AI研究

このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています

“` 2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリッ...