モンテカルロ法

モンテカルロ法

ベビーロボットの強化学習ガイド

強化学習入門:パート4

All images by author

はじめに

今度はまたカジノへ行きますが、今回は太陽の光が差し込むモンテカルロに位置しています。このモンテカルロは、クラシック映画「マダガスカル3: ウォーターフォールを探せ!」で有名になりました(もともと有名だった可能性もありますが)。

前回のカジノ訪問では、マルチアームバンディットを見て、多くの可能な行動があるときに最適な行動を選ぶ問題を視覚化しました。

強化学習の観点では、バンディット問題は単一の状態を表し、その状態内で利用可能な行動を表しています。モンテカルロ法は、このアイデアを複数の相互関連する状態に拡張します。

また、以前の問題では常に環境の完全なモデルが与えられていました。このモデルは、次の状態に移る確率を示す遷移確率と、この遷移に対して受け取る報酬を定義します。

モンテカルロ法では、そうではありません。モデルは与えられず、代わりにエージェントは探索を通じて環境の特性を発見し、次々に状態を移動しながら情報を収集しなければなりません。言い換えれば、モンテカルロ法は経験から学習します。

本記事の例では、カスタムのベビーロボットジム環境を使用し、関連するすべてのコードはGithubで見つけることができます。

さらに、この記事の対話形式のバージョンは、実際に以下で説明されているすべてのコードスニペットを実行できるノートブック形式で利用できます。

このシリーズの以前の記事はこちらでご覧いただけます:ベビーロボットの強化学習ガイド。

また、この記事で使用される理論と用語の要点については、5分での状態価値と方策評価をご確認ください。

モンテカルロ予測

予測問題では、環境の特定の状態にいることの良さを見つけたいと考えています。この「良さ」は、状態によって表されます…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

「クリス・サレンス氏、CentralReachのCEO - インタビューシリーズ」

クリス・サレンズはCentralReachの最高経営責任者であり、同社を率いて、自閉症や関連する障害を持つ人々のために優れたクラ...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...