強化学習の基礎 — TD(λ)と3つの有名な名前

強化学習の基礎 — TD(λ)と3つの名前

モンテカルロ法、SARSA、およびQ学習はTD(λ)から派生できる方法

Photo by Loïc Barré on Unsplash

基礎は最も重要です。強化学習(RL)における最新のアルゴリズムに飛び込む前に、それらが構築される基本原則を把握することが重要です。

RLの世界では、これは時間差(TD)学習の概念を理解することを意味します。この概念はTD(λ)に一般化されます。わずか数行のコードを使用して、古典的なRL問題の一般形を解決する方法を示します。

  1. モンテカルロ法
  2. SARSA
  3. Q学習
  4. 0 < λ < 1 のTD(λ)

結果はGIFで表示され、再利用可能なユーティリティ関数を使用しています。この記事の最後までに、あなた自身で以下の結果を生成することができます。

私たちのエージェント(😃で表される笑顔の顔)は青いグリッドから始まり、黄色いグリッドに到達しようとします。赤いグリッドは厳しい負の報酬を引き起こし、エピソードを終了します。オレンジ色のグリッドはいくつかのペナルティを引き起こしますが、終端状態ではありません。環境は風が吹いており、さらに複雑にするため、エージェントは確率的な遷移により異なる方向に移動することができます。これが動作が方策(矢印で示される)から異なる理由です。方策は一見直感に反するように見えるかもしれませんが、環境の定義によるものですので、正しいことを保証します。

ここではRLの基本知識が前提とされていますが、他の機械学習の領域からの実践者にも内容が理解できるように、主要な概念を簡単にまとめます。

全体像

RLの主な目標

RLの本質は、期待される累積報酬を最大化するためのアクションのシーケンスを学習することです。これには遅延した結果や、異なる状態で利用可能なアクションの制約も含まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ピーター・マッキーはSonarのDeveloper Relationsの責任者です Sonarは、悪いコードの1兆ドルの課題を解決するプラットフォー...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...