強化学習:動的プログラミングとモンテカルロ法—パート2

強化学習:動的プログラミングとモンテカルロ法—パート2

マルコフ決定過程を解決するための2つのシンプルな反復的手法の紹介

UnsplashでのWil Stewartによる画像

前の記事(パート1)では、マルコフ決定過程(MDP)を強化学習(RL)の問題を解決するパラダイムとして定式化しました。ただし、議論された総合的なフレームワークは、MDPのシステマティックな解決方法について触れていませんでした。行列の逆行列などの線形技術の使用を除外し、MDPを解決するための反復的技術の可能性を簡単に提起しました。MDPのアイデアを再訪するには、以下のPart Iを参照してください:

強化学習:マルコフ決定過程—Part 1

強化学習のバックボーンであるマルコフ決定過程の紹介

pub.towardsai.net

RLに関するこの記事以降では、反復的な手法とMDPの解決策について議論します。具体的には、この記事では、MDPを解決するための2つの反復的手法、ダイナミックプログラミングとモンテカルロ法を紹介します。

1. ダイナミックプログラミング

まず、ダイナミックプログラミングについて説明します。ダイナミックプログラミングは、問題の構造の2つの特性を利用する反復的な解決手法です:

  • サブ問題が多くの回帰を行うことができる
  • 各回帰での解決策はキャッシュされ再利用できる

したがって、これは特にMDPの問題に適用されます。なぜなら、ベルマン方程式が状態価値関数V(s)の再帰的な分解を与えるからです。以下はV(s)のためのベルマン方程式の再訪です:

ただし、ダイナミックプログラミングの違いは、特定の方策πに対して、ベルマン方程式を使用して時間ステップtの隣接するV(s')を現在の状態V(s)の時間ステップt+1にマッピングしていることです。以下の図は同様の直感を与えます(以下のk変数は反復ステップです)。また、以下の反復は、ダイナミックプログラミングアルゴリズムの各状態で適用されます

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

役に立つセンサーがAI in a Boxを立ち上げる

「あなた自身のプライベートで安全なAIボックスを持ってみたいですか?全部のアプリ、不快感はなしでそれがUseful Sensorsが...

AIニュース

「AIが顧客がAmazonでより良いショッピングをするのを支援している方法」

顧客のレビューは、オンラインショッピングの基盤となり、購入前に貴重なインサイトを提供することで、購入者に力を与えてい...

機械学習

オペレーションの頭脳:人工知能とデジタルツインで手術の未来を地図化するアトラスメディテック

アスリートが試合のためにトレーニングし、俳優が公演のためにリハーサルするように、外科医も手術の前に準備をします。 今、...

人工知能

ファッションにおけるGenAI | Segmind Stable Diffusion XL 1.0アプローチ

イントロダクション ファッション業界も例外ではなく、消費者の変化する好みに合わせて革新の最前線に留まる方法を模索してき...

AIニュース

「新しい取り組みによる輸送とエネルギーの排出削減法」

これらの新製品の特徴と展開は、人々、都市計画者、政策立案者が持続可能な未来を構築するための行動を取るのに役立ちます

AIニュース

「アジア太平洋地域でAIスタートアップを創出する女性のための新たなファンド」

今日、アジア太平洋地域のスタートアップのうち、女性創業者を持つのはわずか5.7%だけですこの割合は過去5年間で停滞してい...