エントロピー正則化強化学習の説明

魅力とファッションの世界を彩るエキスパートになるための秘訣' (The Secrets to Becoming an Expert in the World of Beauty and Fashion)

アルゴリズムにエントロピーのボーナスを追加することで、より信頼性のある、堅牢な、移植可能なポリシーを学びましょう

Jeremy Thomasによる写真

エントロピーは、乱雑さ、ランダム性、または不確実性の状態に関連する概念です。それはランダム変数の情報の尺度と考えることができます。伝統的には、それは熱力学などの分野に関連していますが、その用語は他の多くの領域にも取り入れられました。

1948年、クロード・シャノンは情報理論におけるエントロピーの概念を導入しました。この文脈では、イベントが起こる確率が低いほど、それはより多くの情報を提供すると考えられます。イベントの情報は、その発生確率と反比例の関係にあります。直感的に言えば、珍しいイベントからはより多くを学びます。

エントロピーの概念は次のように形式化できます:

強化学習(RL)では、探索を奨励する目的でエントロピーの概念も導入されています。この文脈では、エントロピーは確率的ポリシーが返す行動の予測可能性の尺度です。

具体的には、RLはポリシーのエントロピー(つまり、行動の確率分布)をボーナスとして取り入れ、報酬の一部として埋め込みます。本記事は基本的なケースに焦点を当てていますが、エントロピーのボーナスは多くの最新のRLアルゴリズムの重要な部分です。

エントロピーとは何ですか?

まず、エントロピーの概念について少し直感を養いましょう。以下の図は、エントロピーが低いポリシーと高いポリシーを示しています。低エントロピーのポリシーはほぼ決定論的であり、ほとんど常に同じ行動を選択します。高エントロピーのポリシーでは、選択する行動にはより多くのランダム性があります。

低エントロピーのポリシー(左)と高エントロピーのポリシー(右)。高エントロピーのポリシーでは、行動選択にはより多くのランダム性があります [画像作者による画像]

次に、コインの投げのエントロピーについて考えてみましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more