オンポリシー対オフポリシーのモンテカルロ、視覚化と共に
オンポリシー対オフポリシーのモンテカルロ、視覚化と共に' -> 'オンポリシー対オフポリシーのモンテカルロ、視覚化
プラグアンドプレイのコードを使用して重要度サンプリングを組み込んでいます
強化学習では、モンテカルロ (MC) 推定または時間差 (TD) 学習を使用して、サンプルエピソードから「目標」となるリターンを確立します。両アプローチは、遷移ダイナミクスが未知の環境で学習することを可能にします。つまり、p(s',r|s,a)
は未知です。
MCは、終端状態に達するまでの状態-行動ペアのフルリターンを使用します。分散が高く、ただしサンプルが独立かつ同一分布に従う場合にはバイアスがありません。
MCとTDの比較は後日、コードによって裏付けられる予定です。今日は、MC自体に焦点を当てます。オンポリシーとオフポリシーのMCの違いについて、異なる入力で試すことができるプラグアンドプレイのコードから具体的な結果を示します。
まとめ
この記事の最後までに、コードを使わずに定量的な議論だけでなく、オンポリシーとオフポリシーアプローチの違いを理解することができるでしょう。さらに、以下のツールを手に入れることができます:
- 「2023年9月のソーシャルメディア向けの20の最高のChatGPTプロンプト」
- 「Generative AIの活用:Generative AIツールのサイバーセキュリティへの影響の解明」
- 「ウォルマートの大胆な動き:50000人の企業従業員に生成型AIアシスタントを装備する」
- 好みに応じて簡単に調整できるウィンディグリッドワールドの異なる組み合わせを探索すること。
- 重要度サンプリングを組み込んだオンポリシーまたはオフポリシーMCによるトレーニングを行うこと。
- 学習されたアクション価値とポリシーを視覚化すること。
環境
ここでは、クラシックなウィンディグリッドワールドを考慮しています。遷移は乱雑です。なぜなら、意図した方向ではなくランダムに移動する可能性があるためです(風のため)。
ゴールのG
は、着陸時にエージェントに高い報酬を与え、同時に終端状態でもあります。トラップT
は、エージェントに大きな負の報酬を与えます。その他のステップは報酬 -1 を発生させます。エージェントは定義された空間の外に移動することはできません。
from copy import deepcopyimport numpy as npfrom tqdm import tqdmimport matplotlib.pyplot as pltimport matplotlib.patches as patchesimport matplotlib.colors as mcolorsfrom matplotlib.cm import ScalarMappableclass…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles