強化学習の基礎 — TD(λ)と3つの有名な名前

強化学習の基礎 — TD(λ)と3つの名前

モンテカルロ法、SARSA、およびQ学習はTD(λ)から派生できる方法

Photo by Loïc Barré on Unsplash

基礎は最も重要です。強化学習(RL)における最新のアルゴリズムに飛び込む前に、それらが構築される基本原則を把握することが重要です。

RLの世界では、これは時間差(TD)学習の概念を理解することを意味します。この概念はTD(λ)に一般化されます。わずか数行のコードを使用して、古典的なRL問題の一般形を解決する方法を示します。

  1. モンテカルロ法
  2. SARSA
  3. Q学習
  4. 0 < λ < 1 のTD(λ)

結果はGIFで表示され、再利用可能なユーティリティ関数を使用しています。この記事の最後までに、あなた自身で以下の結果を生成することができます。

私たちのエージェント(😃で表される笑顔の顔)は青いグリッドから始まり、黄色いグリッドに到達しようとします。赤いグリッドは厳しい負の報酬を引き起こし、エピソードを終了します。オレンジ色のグリッドはいくつかのペナルティを引き起こしますが、終端状態ではありません。環境は風が吹いており、さらに複雑にするため、エージェントは確率的な遷移により異なる方向に移動することができます。これが動作が方策(矢印で示される)から異なる理由です。方策は一見直感に反するように見えるかもしれませんが、環境の定義によるものですので、正しいことを保証します。

ここではRLの基本知識が前提とされていますが、他の機械学習の領域からの実践者にも内容が理解できるように、主要な概念を簡単にまとめます。

全体像

RLの主な目標

RLの本質は、期待される累積報酬を最大化するためのアクションのシーケンスを学習することです。これには遅延した結果や、異なる状態で利用可能なアクションの制約も含まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

人工知能

「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 - インタビューシリーズ」

ソフトウェアエンジニアリングの副社長として、DougはCornelis Networksのソフトウェアスタック全体、Omni-Path Architecture...

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...