強化学習:SARSAとQ-Learning – 第3部

強化学習:SARSAとQ-Learning - 第3部

マルコフ決定プロセスを解決するための一連の反復的な手法、Temporal Differenceファミリーの紹介

Image by Alexey Savchenko on Unsplash

前の記事であるPart 2では、マルコフ決定プロセス(MDP)を解決するためのいくつかの解法アルゴリズム、具体的には動的計画法とモンテカルロ法について紹介しました。動的計画法は、MDPの環境ダイナミクス全体を知っている場合に簡単に適用することができます。すなわち、すべての状態間の遷移確率(アクションに依存)がわかっている場合です。しかし、特に実世界の応用を考えると、状態とアクションの間の確率的な関係がしばしばあいまいである場合、このような仮定は実用的ではありません。

遷移確率を知らない場合、モンテカルロ学習というアイデアを紹介しました。このパラダイムの下では、学習エージェントが特定の「ベストゲス」と呼ばれるポリシーからのアクションで環境を探索します。このパラダイムの下での試行錯誤の後、ポリシーはエピソードごとにのみ更新されます。

これらのアイデアを振り返るために、以下のPart 2をご覧ください:

強化学習:動的計画法とモンテカルロ法―Part 2

マルコフ決定プロセスを解決するための2つのシンプルな反復的手法の紹介

pub.towardsai.net

しかし、前の記事でも述べたように、上記の解決策はアプリケーションに制約があります。特に、モデルフリーのシナリオでは、エピソードが終了する前にポリシーを途中で更新する必要がある場合です。または、エピソードが終わることのない場合―人生の旅をMDPとして捉えることを想像してみてください。この場合、私たちは通常、学習を継続的に更新しています。どのような行動が最善かを考えるのです。これは、ある特定の時点での一括反省や、さらには人生の終わりまで待つのではなく、継続的に行われる学習です。

このような時間ステップを越えて継続的に学習するために、この記事ではTemporal Difference(TD)ファミリーのアルゴリズム、具体的にはSARSA(0)、SARSA(λ)、Q-Learningを探求します。SARSA(0)とSARSA(λ)はTemporal Difference学習のオンポリシーのバリアントであり、Q-learningはオフポリシーのバリアントです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット

人工知能と機械学習は、過去数年間で驚異的な生産性の向上を示しています。機械学習は、すべてのプライバシーと機密性の手段...

AI研究

CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています

世界中で、約8人に1人が精神の問題を抱えています。しかし、精神保健障害は、心の専門家の不足、劣悪な治療法、高額な費用、...

データサイエンス

「AIデータ統合とコンテンツベースのマッピングによる未来のナビゲーション」

この記事では、AIデータ統合とコンテンツベースのマッピングが企業がより良いデータ駆動型の未来を築くのにどのように役立つ...

機械学習

ショッピファイの製品推奨アプリに生成AIを導入する

ショッピファイの製品推薦アプリケーションであるSearch and DiscoveryにジェネレーティブAIがどのように実装されたかについ...

機械学習

フィールドからフォークへ:スタートアップが食品業界にAIのスモーガスボードを提供

それは魔法のように機能しました。データセンターで実行されているコンピュータービジョンアルゴリズムが、インドの遠い小麦...

人工知能

RAPIDS:簡単にMLモデルを加速するためにGPUを使用する

はじめに 人工知能(AI)がますます成長するにつれて、より高速かつ効率的な計算能力の需要が高まっています。機械学習(ML)...