強化学習の基礎 — TD(λ)と3つの有名な名前

強化学習の基礎 — TD(λ)と3つの名前

モンテカルロ法、SARSA、およびQ学習はTD(λ)から派生できる方法

Photo by Loïc Barré on Unsplash

基礎は最も重要です。強化学習(RL)における最新のアルゴリズムに飛び込む前に、それらが構築される基本原則を把握することが重要です。

RLの世界では、これは時間差(TD)学習の概念を理解することを意味します。この概念はTD(λ)に一般化されます。わずか数行のコードを使用して、古典的なRL問題の一般形を解決する方法を示します。

  1. モンテカルロ法
  2. SARSA
  3. Q学習
  4. 0 < λ < 1 のTD(λ)

結果はGIFで表示され、再利用可能なユーティリティ関数を使用しています。この記事の最後までに、あなた自身で以下の結果を生成することができます。

私たちのエージェント(😃で表される笑顔の顔)は青いグリッドから始まり、黄色いグリッドに到達しようとします。赤いグリッドは厳しい負の報酬を引き起こし、エピソードを終了します。オレンジ色のグリッドはいくつかのペナルティを引き起こしますが、終端状態ではありません。環境は風が吹いており、さらに複雑にするため、エージェントは確率的な遷移により異なる方向に移動することができます。これが動作が方策(矢印で示される)から異なる理由です。方策は一見直感に反するように見えるかもしれませんが、環境の定義によるものですので、正しいことを保証します。

ここではRLの基本知識が前提とされていますが、他の機械学習の領域からの実践者にも内容が理解できるように、主要な概念を簡単にまとめます。

全体像

RLの主な目標

RLの本質は、期待される累積報酬を最大化するためのアクションのシーケンスを学習することです。これには遅延した結果や、異なる状態で利用可能なアクションの制約も含まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...

データサイエンス

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

セラフィム・バツォグルはSeerのチーフデータオフィサーですSeerに加わる前は、セラフィムはInsitroのチーフデータオフィサー...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

人工知能

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

アレックス・ラトナーは、スタンフォードAIラボを母体とする会社、Snorkel AIのCEO兼共同創設者ですSnorkel AIは、手作業のAI...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...