強化学習:SARSAとQ-Learning – 第3部

強化学習:SARSAとQ-Learning - 第3部

マルコフ決定プロセスを解決するための一連の反復的な手法、Temporal Differenceファミリーの紹介

Image by Alexey Savchenko on Unsplash

前の記事であるPart 2では、マルコフ決定プロセス(MDP)を解決するためのいくつかの解法アルゴリズム、具体的には動的計画法とモンテカルロ法について紹介しました。動的計画法は、MDPの環境ダイナミクス全体を知っている場合に簡単に適用することができます。すなわち、すべての状態間の遷移確率(アクションに依存)がわかっている場合です。しかし、特に実世界の応用を考えると、状態とアクションの間の確率的な関係がしばしばあいまいである場合、このような仮定は実用的ではありません。

遷移確率を知らない場合、モンテカルロ学習というアイデアを紹介しました。このパラダイムの下では、学習エージェントが特定の「ベストゲス」と呼ばれるポリシーからのアクションで環境を探索します。このパラダイムの下での試行錯誤の後、ポリシーはエピソードごとにのみ更新されます。

これらのアイデアを振り返るために、以下のPart 2をご覧ください:

強化学習:動的計画法とモンテカルロ法―Part 2

マルコフ決定プロセスを解決するための2つのシンプルな反復的手法の紹介

pub.towardsai.net

しかし、前の記事でも述べたように、上記の解決策はアプリケーションに制約があります。特に、モデルフリーのシナリオでは、エピソードが終了する前にポリシーを途中で更新する必要がある場合です。または、エピソードが終わることのない場合―人生の旅をMDPとして捉えることを想像してみてください。この場合、私たちは通常、学習を継続的に更新しています。どのような行動が最善かを考えるのです。これは、ある特定の時点での一括反省や、さらには人生の終わりまで待つのではなく、継続的に行われる学習です。

このような時間ステップを越えて継続的に学習するために、この記事ではTemporal Difference(TD)ファミリーのアルゴリズム、具体的にはSARSA(0)、SARSA(λ)、Q-Learningを探求します。SARSA(0)とSARSA(λ)はTemporal Difference学習のオンポリシーのバリアントであり、Q-learningはオフポリシーのバリアントです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「2024年に探索する必要のある10の最高のGPU」

イントロダクション 人工知能(AI)、機械学習(ML)、深層学習(DL)の時代において、驚異的な計算リソースの需要は最高潮に...

機械学習

「生成AIの10年からの教訓」

「生成AIの未来を理解するためには、それがどこから来たのか、そして技術とともに進化する課題と機会を見ることが役立ちます」

AIニュース

ChatGPTのようなChatBot Zhinaoは、何を言うべきか、何を言うべきでないかを知っています

生成型人工知能(AI)はテック界隈で中心的な役割を果たしていますが、綿密に制御されたインターネット環境での運用はほとん...

機械学習

2023年にディープラーニングのためのマルチGPUシステムを構築する方法

「これは、予算内でディープラーニングのためのマルチGPUシステムを構築する方法についてのガイドです特に、コンピュータビジ...

人工知能

ChatGPTから独自のプライベートなフランス語チューターを作成する方法

議論された外国語チューターのコードは、私のGitHubページの同梱リポジトリで見つけることができます非商業利用に限り、自由...

AIニュース

「AIがバービーの画像を作成し、人種差別の批判を受ける」

近日、バービーの映画に関する話題の中で、異なる国を表すAI生成のバービーの画像がインターネット上で話題となっています。...