強化学習:SARSAとQ-Learning – 第3部
強化学習:SARSAとQ-Learning - 第3部
マルコフ決定プロセスを解決するための一連の反復的な手法、Temporal Differenceファミリーの紹介
前の記事であるPart 2では、マルコフ決定プロセス(MDP)を解決するためのいくつかの解法アルゴリズム、具体的には動的計画法とモンテカルロ法について紹介しました。動的計画法は、MDPの環境ダイナミクス全体を知っている場合に簡単に適用することができます。すなわち、すべての状態間の遷移確率(アクションに依存)がわかっている場合です。しかし、特に実世界の応用を考えると、状態とアクションの間の確率的な関係がしばしばあいまいである場合、このような仮定は実用的ではありません。
遷移確率を知らない場合、モンテカルロ学習というアイデアを紹介しました。このパラダイムの下では、学習エージェントが特定の「ベストゲス」と呼ばれるポリシーからのアクションで環境を探索します。このパラダイムの下での試行錯誤の後、ポリシーはエピソードごとにのみ更新されます。
これらのアイデアを振り返るために、以下のPart 2をご覧ください:
強化学習:動的計画法とモンテカルロ法―Part 2
マルコフ決定プロセスを解決するための2つのシンプルな反復的手法の紹介
pub.towardsai.net
- 「完璧なコンビ:adidasとCovision MediaがAIとNVIDIA RTXを使用して写真のようなリアルな3Dコンテンツを作成」
- ローカルマシン上でGenAI LLMsのパワーを解放しましょう!
- 学生と機関のためのChatGPTプラグインで学習を向上させる
しかし、前の記事でも述べたように、上記の解決策はアプリケーションに制約があります。特に、モデルフリーのシナリオでは、エピソードが終了する前にポリシーを途中で更新する必要がある場合です。または、エピソードが終わることのない場合―人生の旅をMDPとして捉えることを想像してみてください。この場合、私たちは通常、学習を継続的に更新しています。どのような行動が最善かを考えるのです。これは、ある特定の時点での一括反省や、さらには人生の終わりまで待つのではなく、継続的に行われる学習です。
このような時間ステップを越えて継続的に学習するために、この記事ではTemporal Difference(TD)ファミリーのアルゴリズム、具体的にはSARSA(0)、SARSA(λ)、Q-Learningを探求します。SARSA(0)とSARSA(λ)はTemporal Difference学習のオンポリシーのバリアントであり、Q-learningはオフポリシーのバリアントです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 大規模言語モデルに追いつく
- 自然言語処理:BERTやGPTを超えて
- 「新しいAIの研究が、化学的な匂いを説明する能力において、機械学習モデルが人間レベルのスキルを達成することを示している」という
- このAIの論文では、プログラミング言語が指示調整を通じて互いを向上させる方法について説明しています
- メタAIがNougatをリリース:科学文書を処理するためのOCRを実行するビジュアルトランスフォーマーモデルで、マークアップ言語に変換します
- 「8/28から9/3までの週のトップの重要なコンピュータビジョン論文」
- 「HybridGNetによる解剖学的セグメンテーションの秘密を明らかにする:可能性のある解剖学的構造のデコードのためのAIエンコーダーデコーダー」