モンテカルロ法

モンテカルロ法

ベビーロボットの強化学習ガイド

強化学習入門:パート4

All images by author

はじめに

今度はまたカジノへ行きますが、今回は太陽の光が差し込むモンテカルロに位置しています。このモンテカルロは、クラシック映画「マダガスカル3: ウォーターフォールを探せ!」で有名になりました(もともと有名だった可能性もありますが)。

前回のカジノ訪問では、マルチアームバンディットを見て、多くの可能な行動があるときに最適な行動を選ぶ問題を視覚化しました。

強化学習の観点では、バンディット問題は単一の状態を表し、その状態内で利用可能な行動を表しています。モンテカルロ法は、このアイデアを複数の相互関連する状態に拡張します。

また、以前の問題では常に環境の完全なモデルが与えられていました。このモデルは、次の状態に移る確率を示す遷移確率と、この遷移に対して受け取る報酬を定義します。

モンテカルロ法では、そうではありません。モデルは与えられず、代わりにエージェントは探索を通じて環境の特性を発見し、次々に状態を移動しながら情報を収集しなければなりません。言い換えれば、モンテカルロ法は経験から学習します。

本記事の例では、カスタムのベビーロボットジム環境を使用し、関連するすべてのコードはGithubで見つけることができます。

さらに、この記事の対話形式のバージョンは、実際に以下で説明されているすべてのコードスニペットを実行できるノートブック形式で利用できます。

このシリーズの以前の記事はこちらでご覧いただけます:ベビーロボットの強化学習ガイド。

また、この記事で使用される理論と用語の要点については、5分での状態価値と方策評価をご確認ください。

モンテカルロ予測

予測問題では、環境の特定の状態にいることの良さを見つけたいと考えています。この「良さ」は、状態によって表されます…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

人工知能

ファイデムのチーフ・プロダクト・オフィサー、アルパー・テキン-インタビューシリーズ

アルパー・テキンは、FindemというAI人材の獲得と管理プラットフォームの最高製品責任者(CPO)ですFindemのTalent Data Clou...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...