強化学習:SARSAとQ-Learning – 第3部

強化学習:SARSAとQ-Learning - 第3部

マルコフ決定プロセスを解決するための一連の反復的な手法、Temporal Differenceファミリーの紹介

Image by Alexey Savchenko on Unsplash

前の記事であるPart 2では、マルコフ決定プロセス(MDP)を解決するためのいくつかの解法アルゴリズム、具体的には動的計画法とモンテカルロ法について紹介しました。動的計画法は、MDPの環境ダイナミクス全体を知っている場合に簡単に適用することができます。すなわち、すべての状態間の遷移確率(アクションに依存)がわかっている場合です。しかし、特に実世界の応用を考えると、状態とアクションの間の確率的な関係がしばしばあいまいである場合、このような仮定は実用的ではありません。

遷移確率を知らない場合、モンテカルロ学習というアイデアを紹介しました。このパラダイムの下では、学習エージェントが特定の「ベストゲス」と呼ばれるポリシーからのアクションで環境を探索します。このパラダイムの下での試行錯誤の後、ポリシーはエピソードごとにのみ更新されます。

これらのアイデアを振り返るために、以下のPart 2をご覧ください:

強化学習:動的計画法とモンテカルロ法―Part 2

マルコフ決定プロセスを解決するための2つのシンプルな反復的手法の紹介

pub.towardsai.net

しかし、前の記事でも述べたように、上記の解決策はアプリケーションに制約があります。特に、モデルフリーのシナリオでは、エピソードが終了する前にポリシーを途中で更新する必要がある場合です。または、エピソードが終わることのない場合―人生の旅をMDPとして捉えることを想像してみてください。この場合、私たちは通常、学習を継続的に更新しています。どのような行動が最善かを考えるのです。これは、ある特定の時点での一括反省や、さらには人生の終わりまで待つのではなく、継続的に行われる学習です。

このような時間ステップを越えて継続的に学習するために、この記事ではTemporal Difference(TD)ファミリーのアルゴリズム、具体的にはSARSA(0)、SARSA(λ)、Q-Learningを探求します。SARSA(0)とSARSA(λ)はTemporal Difference学習のオンポリシーのバリアントであり、Q-learningはオフポリシーのバリアントです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

自然言語処理における転移学習:テキスト分類のための事前学習済みモデルの活用

この記事では、転移学習の概念について説明し、いくつかの人気のある事前学習済みモデルを探求し、テキスト分類に使用する方...

AI研究

「ADHDを持つ思春期の若者において、この深層学習研究はMRIスキャンの分析において独特な脳の変化を明らかにする:MRIスキャン分析の飛躍的な進歩」

画期的な開発により、研究者は人工知能(AI)の力を活用して、思春期の注意欠陥多動性障害(ADHD)の診断に内在する課題に取...

機械学習

「ゲート付き再帰型ユニット(GRU)の詳細な解説:RNNの数学的背後理論の理解」

この記事では、ゲート付き再帰ユニット(GRU)の動作について説明しますGRUは、長期短期記憶(LSTM)の事前知識があれば簡単...

データサイエンス

「Apache CassandraとApache Pulsarを使用した製品推薦エンジンの構築」

仮説上の請負業者がApache PulsarとApache Cassandraを使用してAIの加速化を行った方法この記事ではAI/MLへの道のりの重要な...

AI研究

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどう...

データサイエンス

2024年の予測17:RAG to RichesからBeatlemaniaとNational Treasuresへ

メリアム・ウェブスターの前に譲れ:今年、企業は年間のワードに追加するための多くの候補を見つけました。「生成的AI」と「...