「DeepMindの研究者たちは、AlphaStar Unpluggedを紹介しました:リアルタイムストラテジーゲームStarCraft IIの大規模なオフライン強化学習において、飛躍的な進歩を遂げました」

DeepMindの研究者はAlphaStar Unpluggedを紹介し、StarCraft IIのオフライン強化学習で大きな進歩を達成した

ゲームは長い間、人工知能(AI)システムの能力を評価するための重要なテスト場として機能してきました。AI技術が進化するにつれて、研究者たちは現実世界の課題に関連するさまざまな知能の側面を評価するためにより複雑なゲームを求めてきました。リアルタイム戦略(RTS)ゲームであるStarCraftは、その複雑なゲームプレイによりAI研究の「グランドチャレンジ」として浮上しており、その複雑さに対処するためのAI技術の限界を押し広げています。

Atari、Mario、Quake III Arena Capture the Flag、Dota 2などのオンライン強化学習(RL)に基づくビデオゲームの早期のAIの達成とは対照的に、これらのゲームはしばしばゲームルールを制約したり、超人的な能力を提供したり、簡略化されたマップを利用したりすることが多かったため、StarCraftの複雑さはAIの手法にとって困難な障害となってきました。しかし、これらのオンライン強化学習(RL)アルゴリズムは、この領域で大きな成功を収めています。ただし、その対話的な性質は、現実世界の応用において高い対話と探索を要求し、課題を提起します。

この研究は、オフラインRLへの変革的なシフトを紹介し、エージェントが固定されたデータセットから学習できるようにすることで、より実用的で安全なアプローチを可能にしています。オンラインRLは対話的なドメインで優れている一方、オフラインRLは既存のデータを活用して展開可能なポリシーを作成します。DeepMindの研究者によるAlphaStarプログラムの導入は、トッププロのStarCraftプレイヤーに初めて勝利した最初のAIとなり、StarCraft IIのゲームプレイを習得するために、教師あり学習と強化学習によってトレーニングされた深層ニューラルネットワークを使用しました。

StarCraft IIの人間のプレイヤーリプレイの広範なデータセットを活用することで、このフレームワークは直接の環境との対話を必要とせずにエージェントのトレーニングと評価を可能にします。StarCraft IIは、部分観測性、確率性、および多エージェントダイナミクスなどの特徴的な課題を持つため、オフラインRLアルゴリズムの能力を試す理想的なテスト場となっています。 “AlphaStar Unplugged”は、従来のオンラインRLメソッドとオフラインRLのギャップを埋めることで、StarCraft IIのような複雑な一部観測ゲームに適したベンチマークを確立します。

“AlphaStar Unplugged”の核となる方法論は、この厳しいオフラインRLベンチマークを確立するためのいくつかの重要な貢献に焦点を当てています:

  1. トレーニングセットアップでは、固定されたデータセットと定義済みのルールを使用して、方法間の公平な比較を確保しました。
  2. エージェントのパフォーマンスを正確に測定するための新しい評価指標セットが導入されました。
  3. 実験の出発点として、調整が行われたベースラインエージェントの範囲が提供されました。
  4. StarCraft IIの効果的なエージェントを構築するために必要なかなりのエンジニアリング努力を認識し、論文で詳細に説明されているすべてのエージェントの基盤となる調整された振る舞いクローニングエージェントが提供されました。

“AlphaStar Unplugged”のアーキテクチャには、ベースラインの比較とメトリックの評価のためのいくつかの参照エージェントが含まれています。 StarCraft II APIへの入力は、ベクトル、ユニット、および特徴プレーンの3つのモダリティに基づいて構造化されています。アクションは、関数、遅延、キューイング、リピート、ユニットタグ、ターゲットユニットタグ、およびワールドアクションの7つのモダリティで構成されています。マルチレイヤパーセプトロン(MLP)はベクトル入力をエンコードおよび処理し、トランスフォーマはユニット入力を処理し、残差畳み込みネットワークは特徴プレーンを管理します。モダリティは、ユニットの散乱、ベクトルの埋め込み、畳み込みの再形成、およびメモリの使用を通じて相互に接続されています。メモリはベクトルモダリティに組み込まれており、アクションのサンプリングと並行して値関数が使用されています。

実験結果は、オフラインRLアルゴリズムの素晴らしい成果を強調し、以前のリーディングエージェントであるAlphaStar Supervisedエージェントに対して90%の勝率を達成しています。特筆すべきは、このパフォーマンスがオフラインデータの利用だけで実現されていることです。研究者たちは、彼らの研究が大規模なオフライン強化学習研究を大幅に前進させると期待しています。

行列は、0から100の間でスケーリングされた参照エージェントの正規化された勝率を示しています。引き分けは合計に影響を与えることに注意してください。AS-SUPは元のAlphaStar Supervisedエージェントを表しています。

結論として、DeepMindの「AlphaStar Unplugged」は、オフライン強化学習の限界を押し広げる前例のないベンチマークを紹介しています。StarCraft IIの複雑なゲームダイナミクスを利用することで、このベンチマークはRL研究の改良されたトレーニング手法とパフォーマンス指標の舞台を築きます。さらに、オフラインRLの約束を示し、シミュレートされた環境と現実世界の応用のギャップを埋めるためのより安全かつ実用的なトレーニングRLエージェントのアプローチを提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

コンピュータサイエンス

「アメリカ軍がジェネレーティブAIを試す」

アメリカ国防総省は、軍事利用のためのデータ統合とデジタルプラットフォームの開発を目指して、5つの大規模言語モデルのテス...

機械学習

宇宙における私たちの位置を理解する

マーティン・ルーサー・キングJr.奨学生であるブライアン・ノードは、機械を訓練して宇宙を探索し、研究における公正を求めて...

機械学習

ビデオアクション認識を最適化するにはどのようにすればよいのでしょうか?深層学習アプローチにおける空間的および時間的注意モジュールの力を明らかにします

アクション認識は、動画中の人間のアクションや動きを自動的に識別し、カテゴリ分けするプロセスです。監視、ロボティクス、...

機械学習

LoftQをご紹介します:大規模言語モデルのためのLoRA(Fine-Tuning-Aware Quantization)

プリトレーニングされた言語モデル(PLM)の導入は、自然言語処理の分野において画期的な変革を示しています。プリトレーニング...

データサイエンス

非常に大きなデータセットのランダム化

最近では、サイズがギガバイト、あるいはテラバイトで測定されるデータセットを見つけることはまったく珍しくありませんその...