強化学習の基礎 — TD(λ)と3つの有名な名前
強化学習の基礎 — TD(λ)と3つの名前
モンテカルロ法、SARSA、およびQ学習はTD(λ)から派生できる方法
基礎は最も重要です。強化学習(RL)における最新のアルゴリズムに飛び込む前に、それらが構築される基本原則を把握することが重要です。
RLの世界では、これは時間差(TD)学習の概念を理解することを意味します。この概念はTD(λ)に一般化されます。わずか数行のコードを使用して、古典的なRL問題の一般形を解決する方法を示します。
- モンテカルロ法
- SARSA
- Q学習
- 0 < λ < 1 のTD(λ)
結果はGIFで表示され、再利用可能なユーティリティ関数を使用しています。この記事の最後までに、あなた自身で以下の結果を生成することができます。
私たちのエージェント(😃で表される笑顔の顔)は青いグリッドから始まり、黄色いグリッドに到達しようとします。赤いグリッドは厳しい負の報酬を引き起こし、エピソードを終了します。オレンジ色のグリッドはいくつかのペナルティを引き起こしますが、終端状態ではありません。環境は風が吹いており、さらに複雑にするため、エージェントは確率的な遷移により異なる方向に移動することができます。これが動作が方策(矢印で示される)から異なる理由です。方策は一見直感に反するように見えるかもしれませんが、環境の定義によるものですので、正しいことを保証します。
ここではRLの基本知識が前提とされていますが、他の機械学習の領域からの実践者にも内容が理解できるように、主要な概念を簡単にまとめます。
全体像
RLの主な目標
RLの本質は、期待される累積報酬を最大化するためのアクションのシーケンスを学習することです。これには遅延した結果や、異なる状態で利用可能なアクションの制約も含まれます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles