MuZero ルールなしでGo、チェス、将棋、アタリをマスターする

'MuZero は、Go、チェス、将棋、アタリなどのゲームをルールなしでマスターする'

2016年、私たちは初めて人間を打ち破る人工知能（AI）プログラムであるAlphaGoを導入しました。2年後、その後継であるAlphaZeroは、ゼロから学習してGo、チェス、将棋をマスターしました。そして、私たちは自然誌に掲載された論文で、一般的なアルゴリズムの追求における大きな進歩となるMuZeroを説明しています。MuZeroは、未知の環境で勝利戦略を計画する能力により、ルールを教えられなくてもGo、チェス、将棋、Atariをマスターします。

長年にわたり、研究者たちは環境を説明するモデルを学習し、そのモデルを使用して最適な行動を計画できる方法を模索してきました。しかし、Atariなどのドメインでは、通常、ルールやダイナミクスが未知で複雑なため、ほとんどの手法が効果的に計画することに苦労してきました。

2019年に初めて発表された予備論文であるMuZeroは、計画において環境の重要な側面に焦点を当てたモデルを学習することで、この問題を解決します。AlphaZeroの強力な先読みツリーサーチと組み合わせることで、MuZeroはAtariのベンチマークで新たな最先端の結果を出し、同時にGo、チェス、将棋のクラシックな計画課題ではAlphaZeroと同等のパフォーマンスを達成します。これにより、MuZeroは強化学習アルゴリズムの能力における大きな飛躍を示しています。

未知のモデルへの一般化

計画する能力は人間の知能の重要な部分であり、問題を解決し、将来についての意思決定をすることができます。たとえば、暗い雲が出てきたら、雨が降ると予測し、外出する前に傘を持って行くと決めることができます。人間はこの能力を素早く学習し、新しいシナリオにも一般化することができます。我々のアルゴリズムにもこの特性を持たせたいと考えています。

研究者たちは、このAIの大きな課題に対処するために、主に2つのアプローチを使用してきました。先読み探索またはモデルベースの計画です。

AlphaZeroなどの先読み探索を使用するシステムは、チェッカー、チェス、ポーカーなどのクラシックなゲームで驚異的な成功を収めていますが、ゲームのルールや正確なシミュレータなどの環境のダイナミクスに関する知識を与えられることに依存しています。これにより、一般的に複雑で単純なルールに簡約できない、複雑な現実世界の問題に適用することが難しくなります。

モデルベースのシステムは、環境のダイナミクスの正確なモデルを学習し、それを使用して計画することを目指しています。しかし、環境のすべての側面をモデリングする複雑さのため、これらのアルゴリズムは視覚的に豊かなドメイン（Atariなど）では競争することができません。Atariでは、DQN、R2D2、Agent57などのモデルフリーシステムが最良の結果を出しています。名前が示すように、モデルフリーアルゴリズムは学習済みモデルを使用せず、次にどの行動が最適かを推定します。

MuZeroは、これまでのアプローチの制約を克服するために異なるアプローチを使用しています。MuZeroは環境全体をモデリングしようとするのではなく、エージェントの意思決定プロセスに重要な側面のみをモデル化します。傘があれば乾いたままでいられることを知ることは、空中の雨滴のパターンをモデル化するよりも役に立ちます。

具体的には、MuZeroは計画に重要な3つの要素をモデル化します：

価値：現在の位置はどれくらい良いですか？
方針：どの行動が最適ですか？
報酬：前回の行動はどれくらい良かったですか？

これらはすべて深層ニューラルネットワークを使用して学習し、MuZeroが特定の行動を取った場合に何が起こるかを理解し、それに応じて計画するために必要な要素です。

Monte Carlo Tree Searchを使用してMuZeroニューラルネットワークで計画を立てる方法のイラスト。ゲームの現在位置から始まり（アニメーションの上部にある模式的なGo盤）、MuZeroは観測から埋め込みに使用される表現関数（h）を使用してニューラルネットワーク（s0）にマップします。ダイナミクス関数（g）と予測関数（f）を使用して、MuZeroは可能な将来の行動のシーケンス（a）を考慮し、最適な行動を選択することができます。

MuZeroは環境との相互作用時に収集した経験を、ニューラルネットワークのトレーニングに使用します。この経験には、環境からの観測および報酬、および最適な行動を決定する際に実行される探索の結果が含まれます。

トレーニング中、モデルは収集した経験とともに展開され、各ステップで以前に保存された情報を予測します。価値関数vは観測報酬の合計を予測し、方策推定pは前回の探索結果πを予測し、報酬推定rは最後の観測報酬uを予測します。

この手法にはもう1つの重要な利点があります。MuZeroは環境から新しいデータを収集する代わりに、学習済みモデルを繰り返し使用して計画を改善することができます。たとえば、Atariスイートでのテストでは、このバリアントであるMuZero Reanalyzeは、過去のエピソードで実行すべきだった計画を90%の時間で学習済みモデルを使用して再計画しました。

MuZeroのパフォーマンス

MuZeroの能力を評価するために、4つの異なるドメインを選びました。囲碁、チェス、将棋は、困難な計画問題におけるパフォーマンスを評価するために使用されました。一方、Atariスイートは視覚的に複雑な問題のベンチマークとして使用されました。すべての場合で、MuZeroは強化学習アルゴリズムの新たなステートオブジアートを確立し、Atariスイートではこれまでのすべてのアルゴリズムを上回り、囲碁、チェス、将棋ではAlphaZeroの超人的なパフォーマンスに追いつきました。

200Mまたは20Bフレームごとのトレーニング実行時のAtariスイートのパフォーマンス。MuZeroは両設定で新たなステートオブジアートを達成します。すべてのスコアは人間のテスターのパフォーマンス（100%）に正規化されており、各設定での最良の結果が太字で強調されています。

また、MuZeroが学習済みモデルを使用してより詳細な計画を行う能力もテストしました。まず、一手一手で勝敗の差が生じるクラシックな囲碁の精度計画の課題から始めました。計画時間を増やすと結果が改善されるという直感を確認するために、完全にトレーニングされたMuZeroの各手に対する計画時間の増加に伴う強さの増加を測定しました（下の左側のグラフを参照）。その結果、1/10秒から50秒までの各手の計画時間を増やすと、プレイの強さが1000 Elo（プレイヤーの相対的なスキルの尺度）以上向上することが示されました。これは、強いアマチュアプレイヤーと最強のプロプレイヤーの間の違いに似ています。

左：各手の計画時間が増えるにつれて、囲碁のプレイ強度が大幅に向上します。完璧なシミュレータにアクセスできるAlphaZeroのスケーリングにほぼ完全に一致するMuZeroのスケーリングに注目してください。右：AtariゲームMs Pac-Manのスコアも、トレーニング中の各手ごとの計画量の増加とともに増加します。各プロットは、MuZeroが各手ごとに異なる数のシミュレーションを考慮することが許可された異なるトレーニング実行を示しています。

計画が訓練全体にも利益をもたらすかどうかをテストするために、私たちはAtariゲームのMs Pac-Man（上の右側のグラフ）で別々にトレーニングされたMuZeroのインスタンスを使用して一連の実験を行いました。それぞれは、移動ごとに考慮する計画シミュレーションの数を異なる範囲で設定することができました。範囲は5から50までです。結果は、各移動ごとの計画の量を増やすことで、MuZeroがより早く学習し、より良い最終的なパフォーマンスを達成することを確認しました。

興味深いことに、MuZeroにはMs Pac-Manのすべての利用可能なアクションをカバーするには小さすぎる6または7のシミュレーションのみを考慮することが許されていましたが、それでも良いパフォーマンスを達成しました。これは、MuZeroがアクションと状況の間を一般化することができ、効果的に学習するためにすべての可能性を徹底的に探索する必要はないことを示しています。

新たな地平線

MuZeroが環境のモデルを学習し、それを使用して計画を成功させる能力は、強化学習と汎用アルゴリズムの追求において重要な進歩を示しています。その前身であるAlphaZeroは、既に化学、量子物理学などの複雑な問題に適用されています。MuZeroの強力な学習と計画のアルゴリズムの背後にあるアイデアは、ロボット工学、産業システム、および他のルールが明確でない複雑な現実世界の環境への新たな挑戦に向けた道を開くかもしれません。

‍

Was this article helpful?

93 out of 132 found this helpful

MuZero ルールなしでGo、チェス、将棋、アタリをマスターする

未知のモデルへの一般化

MuZeroのパフォーマンス

新たな地平線

Was this article helpful?

データ、アーキテクチャ、または損失：マルチモーダルトランスフォーマーの成功に最も貢献する要素は何ですか？

インタラクティブな知能の模倣

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

リシ・スナック、新しいグローバルAI安全機関のビジョンを明確化

Google AIは、埋め込みモデルのスケーラビリティの利点と、クロスアテンションモデルの品質を効果的に組み合わせた新しいクラスタリングアルゴリズムを紹介します

「データサイエンスを使って、トップのTwitterインフルエンサーを特定する」

デシAIはDeciLM-7Bを紹介します：超高速かつ超高精度の70億パラメータの大規模言語モデル（LLM）

「データ統合の未来のトレンド」