「DeepMindの研究者たちは、AlphaStar Unpluggedを紹介しました:リアルタイムストラテジーゲームStarCraft IIの大規模なオフライン強化学習において、飛躍的な進歩を遂げました」

DeepMindの研究者はAlphaStar Unpluggedを紹介し、StarCraft IIのオフライン強化学習で大きな進歩を達成した

ゲームは長い間、人工知能(AI)システムの能力を評価するための重要なテスト場として機能してきました。AI技術が進化するにつれて、研究者たちは現実世界の課題に関連するさまざまな知能の側面を評価するためにより複雑なゲームを求めてきました。リアルタイム戦略(RTS)ゲームであるStarCraftは、その複雑なゲームプレイによりAI研究の「グランドチャレンジ」として浮上しており、その複雑さに対処するためのAI技術の限界を押し広げています。

Atari、Mario、Quake III Arena Capture the Flag、Dota 2などのオンライン強化学習(RL)に基づくビデオゲームの早期のAIの達成とは対照的に、これらのゲームはしばしばゲームルールを制約したり、超人的な能力を提供したり、簡略化されたマップを利用したりすることが多かったため、StarCraftの複雑さはAIの手法にとって困難な障害となってきました。しかし、これらのオンライン強化学習(RL)アルゴリズムは、この領域で大きな成功を収めています。ただし、その対話的な性質は、現実世界の応用において高い対話と探索を要求し、課題を提起します。

この研究は、オフラインRLへの変革的なシフトを紹介し、エージェントが固定されたデータセットから学習できるようにすることで、より実用的で安全なアプローチを可能にしています。オンラインRLは対話的なドメインで優れている一方、オフラインRLは既存のデータを活用して展開可能なポリシーを作成します。DeepMindの研究者によるAlphaStarプログラムの導入は、トッププロのStarCraftプレイヤーに初めて勝利した最初のAIとなり、StarCraft IIのゲームプレイを習得するために、教師あり学習と強化学習によってトレーニングされた深層ニューラルネットワークを使用しました。

StarCraft IIの人間のプレイヤーリプレイの広範なデータセットを活用することで、このフレームワークは直接の環境との対話を必要とせずにエージェントのトレーニングと評価を可能にします。StarCraft IIは、部分観測性、確率性、および多エージェントダイナミクスなどの特徴的な課題を持つため、オフラインRLアルゴリズムの能力を試す理想的なテスト場となっています。 “AlphaStar Unplugged”は、従来のオンラインRLメソッドとオフラインRLのギャップを埋めることで、StarCraft IIのような複雑な一部観測ゲームに適したベンチマークを確立します。

“AlphaStar Unplugged”の核となる方法論は、この厳しいオフラインRLベンチマークを確立するためのいくつかの重要な貢献に焦点を当てています:

  1. トレーニングセットアップでは、固定されたデータセットと定義済みのルールを使用して、方法間の公平な比較を確保しました。
  2. エージェントのパフォーマンスを正確に測定するための新しい評価指標セットが導入されました。
  3. 実験の出発点として、調整が行われたベースラインエージェントの範囲が提供されました。
  4. StarCraft IIの効果的なエージェントを構築するために必要なかなりのエンジニアリング努力を認識し、論文で詳細に説明されているすべてのエージェントの基盤となる調整された振る舞いクローニングエージェントが提供されました。

“AlphaStar Unplugged”のアーキテクチャには、ベースラインの比較とメトリックの評価のためのいくつかの参照エージェントが含まれています。 StarCraft II APIへの入力は、ベクトル、ユニット、および特徴プレーンの3つのモダリティに基づいて構造化されています。アクションは、関数、遅延、キューイング、リピート、ユニットタグ、ターゲットユニットタグ、およびワールドアクションの7つのモダリティで構成されています。マルチレイヤパーセプトロン(MLP)はベクトル入力をエンコードおよび処理し、トランスフォーマはユニット入力を処理し、残差畳み込みネットワークは特徴プレーンを管理します。モダリティは、ユニットの散乱、ベクトルの埋め込み、畳み込みの再形成、およびメモリの使用を通じて相互に接続されています。メモリはベクトルモダリティに組み込まれており、アクションのサンプリングと並行して値関数が使用されています。

実験結果は、オフラインRLアルゴリズムの素晴らしい成果を強調し、以前のリーディングエージェントであるAlphaStar Supervisedエージェントに対して90%の勝率を達成しています。特筆すべきは、このパフォーマンスがオフラインデータの利用だけで実現されていることです。研究者たちは、彼らの研究が大規模なオフライン強化学習研究を大幅に前進させると期待しています。

行列は、0から100の間でスケーリングされた参照エージェントの正規化された勝率を示しています。引き分けは合計に影響を与えることに注意してください。AS-SUPは元のAlphaStar Supervisedエージェントを表しています。

結論として、DeepMindの「AlphaStar Unplugged」は、オフライン強化学習の限界を押し広げる前例のないベンチマークを紹介しています。StarCraft IIの複雑なゲームダイナミクスを利用することで、このベンチマークはRL研究の改良されたトレーニング手法とパフォーマンス指標の舞台を築きます。さらに、オフラインRLの約束を示し、シミュレートされた環境と現実世界の応用のギャップを埋めるためのより安全かつ実用的なトレーニングRLエージェントのアプローチを提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

「人工知能の世界を探索する:初心者ガイド」

この記事では、人工知能の新興で興奮するような分野について、さまざまなシステムの種類、リスク、利点について説明します

人工知能

20以上のスタートアップに最適なAIツール(2023年)

AIによって、職場の創造性、分析、意思決定が革命化されています。現在、人工知能の能力は、企業が拡大を急ぎ、内部プロセス...

機械学習

NODE:表形式に特化したニューラルツリー

近年、機械学習は人気が爆発し、ニューラルディープラーニングモデルは画像やテキストなどの複雑なタスクにおいて、XGBoost [...

機械学習

アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組ん...

AIニュース

フェイブルスタジオは、TV番組の完全に新しいエピソードを書き、制作し、監督し、アニメーション化し、さらには声を担当できるAIプラットフォームであるSHOW-1をリリースしました

自分が実生活で演技をしたことがなくても、お気に入りの番組で自分自身を見ることができることを想像できますか?また、始ま...