「ハンズオンディープQ学習」

「ハンズオンディープQ学習」の魅力を解き放つ新たな手法

強化学習

ゲームをもっと難しくして、あなたのエージェントをレベルアップしましょう！

Sean Stratton氏による写真（Unsplashから） — 写真：Sean Stratton氏(Unsplash)

強化学習は、機械学習の中でも最も魅力的な分野の1つです。教師付き学習とは異なり、強化学習モデルは美しく整理されたデータなしでも複雑なプロセスを独自に学習することができます。

私にとって最も楽しいのは、AIエージェントがビデオゲームで勝つ様子を見ることですが、強化学習はビジネスの問題を解決するためにも使用することができます。ゲームとして定義し、始めましょう！ただし、以下を定義する必要があります…

エージェントが存在する環境、
エージェントが行える意思決定、および
成功と失敗の定義

AIエージェントがゲームをマスタリングする例。顧客をピックアップしてホテルに連れて行きます。この画像は著者によるものです。 — AIエージェントがゲームをマスタリングする例。顧客をピックアップしてホテルに連れて行きます。画像は著者によるものです。

続ける前に、強化学習についての私の紹介記事を読んでください。これにより、さらなるコンテキストが得られ、簡単ですが効果的な形式の強化学習を実施する方法も示されます。また、この記事の基盤となります。

実践者のための強化学習ガイド

ゲーム勝利のためのAIエージェントの初歩的なステップを踏み出しましょう

towardsdatascience.com

この記事では、深層強化学習について学びます。それがなぜ必要なのか、また、自分で実装する方法を紹介します。この記事では、私の他の記事よりもはるかに難しそうなゲームをマスタリングするためのものです。

コードは 私のGithubにあります。

広範な観測空間

上記の記事では、小さな離散的な観測空間の中でQ学習を行いました。例えば、凍った湖のゲームでは、4×4のマップ上で16のフィールド（=状態または観測、以降これらの用語を同じように使用します）に立つことができます。カードゲームのブラックジャックのgymnasiumバージョンでは、704の状態があります。

Q学習の非効率性

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful