「DeepMindの研究者たちは、AlphaStar Unpluggedを紹介しました:リアルタイムストラテジーゲームStarCraft IIの大規模なオフライン強化学習において、飛躍的な進歩を遂げました」

DeepMindの研究者はAlphaStar Unpluggedを紹介し、StarCraft IIのオフライン強化学習で大きな進歩を達成した

ゲームは長い間、人工知能(AI)システムの能力を評価するための重要なテスト場として機能してきました。AI技術が進化するにつれて、研究者たちは現実世界の課題に関連するさまざまな知能の側面を評価するためにより複雑なゲームを求めてきました。リアルタイム戦略(RTS)ゲームであるStarCraftは、その複雑なゲームプレイによりAI研究の「グランドチャレンジ」として浮上しており、その複雑さに対処するためのAI技術の限界を押し広げています。

Atari、Mario、Quake III Arena Capture the Flag、Dota 2などのオンライン強化学習(RL)に基づくビデオゲームの早期のAIの達成とは対照的に、これらのゲームはしばしばゲームルールを制約したり、超人的な能力を提供したり、簡略化されたマップを利用したりすることが多かったため、StarCraftの複雑さはAIの手法にとって困難な障害となってきました。しかし、これらのオンライン強化学習(RL)アルゴリズムは、この領域で大きな成功を収めています。ただし、その対話的な性質は、現実世界の応用において高い対話と探索を要求し、課題を提起します。

この研究は、オフラインRLへの変革的なシフトを紹介し、エージェントが固定されたデータセットから学習できるようにすることで、より実用的で安全なアプローチを可能にしています。オンラインRLは対話的なドメインで優れている一方、オフラインRLは既存のデータを活用して展開可能なポリシーを作成します。DeepMindの研究者によるAlphaStarプログラムの導入は、トッププロのStarCraftプレイヤーに初めて勝利した最初のAIとなり、StarCraft IIのゲームプレイを習得するために、教師あり学習と強化学習によってトレーニングされた深層ニューラルネットワークを使用しました。

StarCraft IIの人間のプレイヤーリプレイの広範なデータセットを活用することで、このフレームワークは直接の環境との対話を必要とせずにエージェントのトレーニングと評価を可能にします。StarCraft IIは、部分観測性、確率性、および多エージェントダイナミクスなどの特徴的な課題を持つため、オフラインRLアルゴリズムの能力を試す理想的なテスト場となっています。 “AlphaStar Unplugged”は、従来のオンラインRLメソッドとオフラインRLのギャップを埋めることで、StarCraft IIのような複雑な一部観測ゲームに適したベンチマークを確立します。

“AlphaStar Unplugged”の核となる方法論は、この厳しいオフラインRLベンチマークを確立するためのいくつかの重要な貢献に焦点を当てています:

  1. トレーニングセットアップでは、固定されたデータセットと定義済みのルールを使用して、方法間の公平な比較を確保しました。
  2. エージェントのパフォーマンスを正確に測定するための新しい評価指標セットが導入されました。
  3. 実験の出発点として、調整が行われたベースラインエージェントの範囲が提供されました。
  4. StarCraft IIの効果的なエージェントを構築するために必要なかなりのエンジニアリング努力を認識し、論文で詳細に説明されているすべてのエージェントの基盤となる調整された振る舞いクローニングエージェントが提供されました。

“AlphaStar Unplugged”のアーキテクチャには、ベースラインの比較とメトリックの評価のためのいくつかの参照エージェントが含まれています。 StarCraft II APIへの入力は、ベクトル、ユニット、および特徴プレーンの3つのモダリティに基づいて構造化されています。アクションは、関数、遅延、キューイング、リピート、ユニットタグ、ターゲットユニットタグ、およびワールドアクションの7つのモダリティで構成されています。マルチレイヤパーセプトロン(MLP)はベクトル入力をエンコードおよび処理し、トランスフォーマはユニット入力を処理し、残差畳み込みネットワークは特徴プレーンを管理します。モダリティは、ユニットの散乱、ベクトルの埋め込み、畳み込みの再形成、およびメモリの使用を通じて相互に接続されています。メモリはベクトルモダリティに組み込まれており、アクションのサンプリングと並行して値関数が使用されています。

実験結果は、オフラインRLアルゴリズムの素晴らしい成果を強調し、以前のリーディングエージェントであるAlphaStar Supervisedエージェントに対して90%の勝率を達成しています。特筆すべきは、このパフォーマンスがオフラインデータの利用だけで実現されていることです。研究者たちは、彼らの研究が大規模なオフライン強化学習研究を大幅に前進させると期待しています。

行列は、0から100の間でスケーリングされた参照エージェントの正規化された勝率を示しています。引き分けは合計に影響を与えることに注意してください。AS-SUPは元のAlphaStar Supervisedエージェントを表しています。

結論として、DeepMindの「AlphaStar Unplugged」は、オフライン強化学習の限界を押し広げる前例のないベンチマークを紹介しています。StarCraft IIの複雑なゲームダイナミクスを利用することで、このベンチマークはRL研究の改良されたトレーニング手法とパフォーマンス指標の舞台を築きます。さらに、オフラインRLの約束を示し、シミュレートされた環境と現実世界の応用のギャップを埋めるためのより安全かつ実用的なトレーニングRLエージェントのアプローチを提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

Google Cloudを使用してレコメンドシステムを構築する

Google CloudのRecommendation AIを使用して、高度な推薦システムを実装してください

データサイエンス

「対話型知能の創造 機械学習が個別化された自動テキスト送信に与える影響」

機械学習は、AIを使用して個別化された自動テキスト送信と会話型インテリジェンスを変革し、自然で効果的なテキストベースの...

機械学習

「GROOTに会おう:オブジェクト中心の3D先行条件と適応ポリシー汎化を備えたビジョンベースの操作のための堅牢な模倣学習フレームワーク」

人工知能の人気と利用事例の増加に伴い、模倣学習(IL)は複雑な操作タスクを実行するためのニューラルネットワークベースの...

AIニュース

「Appleの次の動き:『Apple GPT』の開発と最先端の生成型AIツールの開発によるOpenAIへの挑戦」

Appleは驚くべき動きで、AIを搭載したチャットボット「Apple GPT」として仮称されるものを開発していると報じられています。...

AI研究

ETHチューリッヒの研究者が、大規模な言語モデル(LLM)のプロンプティング能力を向上させるマシンラーニングフレームワークであるGoT(Graph of Thoughts)を紹介しました

人工知能(AI)は、大規模言語モデル(LLM)の使用が増えています。特に、Transformerアーキテクチャのデコーダーのみの設計...

機械学習

「私たちはAIとの関係をどのように予測できるのか?」

現在の段階やAGIの後の人間とAIの相互作用は常に議論の的です次の否定的な側面にいるのか、立場をとっているのかに関わらず、...