強化学習の基礎 — TD(λ)と3つの有名な名前

強化学習の基礎 — TD(λ)と3つの名前

モンテカルロ法、SARSA、およびQ学習はTD(λ)から派生できる方法

Photo by Loïc Barré on Unsplash

基礎は最も重要です。強化学習(RL)における最新のアルゴリズムに飛び込む前に、それらが構築される基本原則を把握することが重要です。

RLの世界では、これは時間差(TD)学習の概念を理解することを意味します。この概念はTD(λ)に一般化されます。わずか数行のコードを使用して、古典的なRL問題の一般形を解決する方法を示します。

  1. モンテカルロ法
  2. SARSA
  3. Q学習
  4. 0 < λ < 1 のTD(λ)

結果はGIFで表示され、再利用可能なユーティリティ関数を使用しています。この記事の最後までに、あなた自身で以下の結果を生成することができます。

私たちのエージェント(😃で表される笑顔の顔)は青いグリッドから始まり、黄色いグリッドに到達しようとします。赤いグリッドは厳しい負の報酬を引き起こし、エピソードを終了します。オレンジ色のグリッドはいくつかのペナルティを引き起こしますが、終端状態ではありません。環境は風が吹いており、さらに複雑にするため、エージェントは確率的な遷移により異なる方向に移動することができます。これが動作が方策(矢印で示される)から異なる理由です。方策は一見直感に反するように見えるかもしれませんが、環境の定義によるものですので、正しいことを保証します。

ここではRLの基本知識が前提とされていますが、他の機械学習の領域からの実践者にも内容が理解できるように、主要な概念を簡単にまとめます。

全体像

RLの主な目標

RLの本質は、期待される累積報酬を最大化するためのアクションのシーケンスを学習することです。これには遅延した結果や、異なる状態で利用可能なアクションの制約も含まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

ガイ・イハイアヴ氏は、ビジネスの成功に最も重要な資産を保護するためにインターネット・オブ・シングス(IoT)の力を活用す...

人工知能

「リオール・ハキム、Hour Oneの共同創設者兼CTO - インタビューシリーズ」

「Hour Oneの共同創設者兼最高技術責任者であるリオール・ハキムは、専門的なビデオコミュニケーションのためのバーチャルヒ...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...