強化学習:動的プログラミングとモンテカルロ法—パート2
強化学習:動的プログラミングとモンテカルロ法—パート2
マルコフ決定過程を解決するための2つのシンプルな反復的手法の紹介
前の記事(パート1)では、マルコフ決定過程(MDP)を強化学習(RL)の問題を解決するパラダイムとして定式化しました。ただし、議論された総合的なフレームワークは、MDPのシステマティックな解決方法について触れていませんでした。行列の逆行列などの線形技術の使用を除外し、MDPを解決するための反復的技術の可能性を簡単に提起しました。MDPのアイデアを再訪するには、以下のPart Iを参照してください:
強化学習:マルコフ決定過程—Part 1
強化学習のバックボーンであるマルコフ決定過程の紹介
pub.towardsai.net
RLに関するこの記事以降では、反復的な手法とMDPの解決策について議論します。具体的には、この記事では、MDPを解決するための2つの反復的手法、ダイナミックプログラミングとモンテカルロ法を紹介します。
1. ダイナミックプログラミング
まず、ダイナミックプログラミングについて説明します。ダイナミックプログラミングは、問題の構造の2つの特性を利用する反復的な解決手法です:
- AIベースのアプリケーションテストのトップトレンドを知る必要があります
- 「AIの進化と生成AIへの道のりとその仕組み」
- 「火星のためのモルフォボット:カリフォルニア工科大学がNASAのミッション候補として全地形ロボットを開発」
- サブ問題が多くの回帰を行うことができる
- 各回帰での解決策はキャッシュされ再利用できる
したがって、これは特にMDPの問題に適用されます。なぜなら、ベルマン方程式が状態価値関数V(s)
の再帰的な分解を与えるからです。以下はV(s)
のためのベルマン方程式の再訪です:
ただし、ダイナミックプログラミングの違いは、特定の方策π
に対して、ベルマン方程式を使用して時間ステップt
の隣接するV(s')
を現在の状態V(s)
の時間ステップt+1
にマッピングしていることです。以下の図は同様の直感を与えます(以下のk
変数は反復ステップです)。また、以下の反復は、ダイナミックプログラミングアルゴリズムの各状態で適用されます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles