オンポリシー対オフポリシーのモンテカルロ、視覚化と共に

オンポリシー対オフポリシーのモンテカルロ、視覚化と共に' -> 'オンポリシー対オフポリシーのモンテカルロ、視覚化

プラグアンドプレイのコードを使用して重要度サンプリングを組み込んでいます

aceofnetによる写真、Unsplashから

強化学習では、モンテカルロ (MC) 推定または時間差 (TD) 学習を使用して、サンプルエピソードから「目標」となるリターンを確立します。両アプローチは、遷移ダイナミクスが未知の環境で学習することを可能にします。つまり、p(s',r|s,a) は未知です。

MCは、終端状態に達するまでの状態-行動ペアのフルリターンを使用します。分散が高く、ただしサンプルが独立かつ同一分布に従う場合にはバイアスがありません。

MCとTDの比較は後日、コードによって裏付けられる予定です。今日は、MC自体に焦点を当てます。オンポリシーとオフポリシーのMCの違いについて、異なる入力で試すことができるプラグアンドプレイのコードから具体的な結果を示します。

まとめ

この記事の最後までに、コードを使わずに定量的な議論だけでなく、オンポリシーとオフポリシーアプローチの違いを理解することができるでしょう。さらに、以下のツールを手に入れることができます:

  1. 好みに応じて簡単に調整できるウィンディグリッドワールドの異なる組み合わせを探索すること。
  2. 重要度サンプリングを組み込んだオンポリシーまたはオフポリシーMCによるトレーニングを行うこと。
  3. 学習されたアクション価値とポリシーを視覚化すること。

環境

ここでは、クラシックなウィンディグリッドワールドを考慮しています。遷移は乱雑です。なぜなら、意図した方向ではなくランダムに移動する可能性があるためです(風のため)。

ゴールのGは、着陸時にエージェントに高い報酬を与え、同時に終端状態でもあります。トラップTは、エージェントに大きな負の報酬を与えます。その他のステップは報酬 -1 を発生させます。エージェントは定義された空間の外に移動することはできません。

from copy import deepcopyimport numpy as npfrom tqdm import tqdmimport matplotlib.pyplot as pltimport matplotlib.patches as patchesimport matplotlib.colors as mcolorsfrom matplotlib.cm import ScalarMappableclass…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...

人工知能

「Kognitosの創設者兼CEO、ビニー・ギル- インタビューシリーズ」

ビニー・ギルは、複数の役職と企業を横断する多様で幅広い業務経験を持っていますビニーは現在、Kognitosの創設者兼CEOであり...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...