強化学習:SARSAとQ-Learning – 第3部

強化学習:SARSAとQ-Learning - 第3部

マルコフ決定プロセスを解決するための一連の反復的な手法、Temporal Differenceファミリーの紹介

Image by Alexey Savchenko on Unsplash

前の記事であるPart 2では、マルコフ決定プロセス(MDP)を解決するためのいくつかの解法アルゴリズム、具体的には動的計画法とモンテカルロ法について紹介しました。動的計画法は、MDPの環境ダイナミクス全体を知っている場合に簡単に適用することができます。すなわち、すべての状態間の遷移確率(アクションに依存)がわかっている場合です。しかし、特に実世界の応用を考えると、状態とアクションの間の確率的な関係がしばしばあいまいである場合、このような仮定は実用的ではありません。

遷移確率を知らない場合、モンテカルロ学習というアイデアを紹介しました。このパラダイムの下では、学習エージェントが特定の「ベストゲス」と呼ばれるポリシーからのアクションで環境を探索します。このパラダイムの下での試行錯誤の後、ポリシーはエピソードごとにのみ更新されます。

これらのアイデアを振り返るために、以下のPart 2をご覧ください:

強化学習:動的計画法とモンテカルロ法―Part 2

マルコフ決定プロセスを解決するための2つのシンプルな反復的手法の紹介

pub.towardsai.net

しかし、前の記事でも述べたように、上記の解決策はアプリケーションに制約があります。特に、モデルフリーのシナリオでは、エピソードが終了する前にポリシーを途中で更新する必要がある場合です。または、エピソードが終わることのない場合―人生の旅をMDPとして捉えることを想像してみてください。この場合、私たちは通常、学習を継続的に更新しています。どのような行動が最善かを考えるのです。これは、ある特定の時点での一括反省や、さらには人生の終わりまで待つのではなく、継続的に行われる学習です。

このような時間ステップを越えて継続的に学習するために、この記事ではTemporal Difference(TD)ファミリーのアルゴリズム、具体的にはSARSA(0)、SARSA(λ)、Q-Learningを探求します。SARSA(0)とSARSA(λ)はTemporal Difference学習のオンポリシーのバリアントであり、Q-learningはオフポリシーのバリアントです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、概念関連伝播(CRP)を用いて、「どこ」や「何」を解き明かすための深層学習モデルの理解に新たなアプローチを提案しています

“`html 機械学習と人工知能の分野は非常に重要になっています。日々進歩している新たな技術があります。この領域はあら...

AIニュース

「OpenAIはAIの安全性に対処するためにベンガルールで開発者ミートアップを計画中」

OpenAIは、AIチャットボットChatGPTの影響力のある力を持つ組織であり、2024年1月にベンガルールで開発者の集まりを開催する...

機械学習

「PyTorchのネステロフモーメンタムの実装は間違っていますか?」

「PyTorchのSGDのドキュメンテーションを詳しく見ると、彼らのNesterovモメンタムの実装は、元の論文に見られる数つの違いが...

機械学習

AI倫理の役割:革新と社会的責任のバランス

「人工知能は急速に拡大している分野を表しており、AIが引き起こす倫理的なジレンマを認識することが重要です」

AI研究

デジタルルネッサンス:NVIDIAのNeuralangelo研究が3Dシーンを再構築

NVIDIA Researchによる新しいAIモデル、Neuralangeloは、ニューラルネットワークを使用して3D再構築を行い、2Dビデオクリップ...

機械学習

中国における大量生産自動運転の課題

自律走行は、世界でも最も困難な運転の一つが既に存在する中国では、特に難しい課題です主に3つの要因が関係しています:動的...