オンポリシー対オフポリシーのモンテカルロ、視覚化と共に

オンポリシー対オフポリシーのモンテカルロ、視覚化と共に' -> 'オンポリシー対オフポリシーのモンテカルロ、視覚化

プラグアンドプレイのコードを使用して重要度サンプリングを組み込んでいます

強化学習では、モンテカルロ (MC) 推定または時間差 (TD) 学習を使用して、サンプルエピソードから「目標」となるリターンを確立します。両アプローチは、遷移ダイナミクスが未知の環境で学習することを可能にします。つまり、p(s',r|s,a) は未知です。

MCは、終端状態に達するまでの状態-行動ペアのフルリターンを使用します。分散が高く、ただしサンプルが独立かつ同一分布に従う場合にはバイアスがありません。

MCとTDの比較は後日、コードによって裏付けられる予定です。今日は、MC自体に焦点を当てます。オンポリシーとオフポリシーのMCの違いについて、異なる入力で試すことができるプラグアンドプレイのコードから具体的な結果を示します。

まとめ

この記事の最後までに、コードを使わずに定量的な議論だけでなく、オンポリシーとオフポリシーアプローチの違いを理解することができるでしょう。さらに、以下のツールを手に入れることができます：

好みに応じて簡単に調整できるウィンディグリッドワールドの異なる組み合わせを探索すること。
重要度サンプリングを組み込んだオンポリシーまたはオフポリシーMCによるトレーニングを行うこと。
学習されたアクション価値とポリシーを視覚化すること。

環境

ここでは、クラシックなウィンディグリッドワールドを考慮しています。遷移は乱雑です。なぜなら、意図した方向ではなくランダムに移動する可能性があるためです（風のため）。

ゴールのGは、着陸時にエージェントに高い報酬を与え、同時に終端状態でもあります。トラップTは、エージェントに大きな負の報酬を与えます。その他のステップは報酬 -1 を発生させます。エージェントは定義された空間の外に移動することはできません。

from copy import deepcopyimport numpy as npfrom tqdm import tqdmimport matplotlib.pyplot as pltimport matplotlib.patches as patchesimport matplotlib.colors as mcolorsfrom matplotlib.cm import ScalarMappableclass…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

オンポリシー対オフポリシーのモンテカルロ、視覚化と共に

プラグアンドプレイのコードを使用して重要度サンプリングを組み込んでいます

まとめ

環境

Was this article helpful?

このAIニュースレターは、あなたが必要なすべてです＃63

「翼を広げよう：Falcon 180Bがここにあります」

人工知能

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

ギル・ジェロン、Orca SecurityのCEO＆共同創設者-インタビューシリーズ

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ