好奇心だけで十分なのか? 好奇心による探索からの新たな振る舞いの有用性について
好奇心だけで十分か?新たな振る舞いの有用性についての探索
純粋な好奇心の探索中に、JACOアームはキューブを持ち上げる方法を発見し、ワークスペース内でそれらを移動させ、さらにそのエッジにバランスを取ることができるかどうかを探求します。
好奇心のある探索により、OP3は直立歩行、片足でのバランス、座ること、さらには後ろに飛び跳ねる際の安全なキャッチなど、特定のターゲットタスクを最適化する必要はない状態でこれらの動作を実現します。
内発的動機づけ[1, 2]は、タスク情報のない状態でエージェントが環境を持続的に探索するメカニズムを持たせるための強力な概念です。好奇心学習[3, 4]を通じて内発的動機づけを実装する一般的な方法の1つです。この方法では、エージェントのポリシーと並行して、エージェントの行動に対する環境の反応についての予測モデルがトレーニングされます。このモデルはワールドモデルとも呼ばれます。アクションが実行されると、ワールドモデルはエージェントの次の観測について予測を行います。この予測は、エージェントが行った真の観測と比較されます。重要な点は、このアクションに対してエージェントに与えられる報酬が、次の観測を予測する際にエージェントが犯したエラーによってスケーリングされることです。この方法により、アウトカムがまだ十分に予測できないアクションを取ることに対してエージェントは報酬を得ます。同時に、ワールドモデルはそのアクションの結果をよりよく予測するように更新されます。
このメカニズムは、オンポリシーの設定で成功裏に適用されてきました。例えば、非教師付きの方法で2Dコンピュータゲームを打ち負かしたり、具体的な下流タスクに容易に適応可能な一般的なポリシーをトレーニングしたりするために使用されました。しかし、私たちは好奇心学習の真の強みは、好奇心のある探索プロセス中に現れる多様な行動にあると考えています。好奇心の目標が変化すると、エージェントの結果行動も変化し、後で利用できるように保持されなければならない多くの複雑なポリシーを発見することができます。
本論文では、好奇心学習を研究し、その新興行動を活用するために2つの貢献を行います。第一に、自己動機づけの好奇心ベースの探索のオフポリシー実現であるSelMoを紹介します。シミュレートされた操作と移動ドメインで好奇心目標の最適化に基づいて意味のある多様な行動が生じることを示します。第二に、好奇心学習の応用において新たに浮かび上がる中間行動の特定と保持に焦点を当てる提案を行います。この仮説を支持するために、階層的強化学習のセットアップで、自己発見された行動を事前学習済みの補助的なスキルとして再読み込みする実験を行います。
SelMoを6自由度のJACOアーム(三本指のグリッパーを備えた)および20自由度のヒューマノイドロボットであるOP3の2つのシミュレートされた連続制御ロボットドメインで実行します。それぞれのプラットフォームは、物体操作および移動において学習が難しい環境を提供します。好奇心のみを最適化する場合、トレーニングの過程で複雑な、人間が解釈可能な行動が生じることを観察します。例えば、JACOは監視なしでキューブを持ち上げて移動することを学び、OP3は倒れずに片足でバランスを取ったり安全に座ったりすることを学びます。
ただし、好奇心による探索中に観察される印象的な行動には一つの重要な欠点があります:好奇心報酬関数によって変化し続けるため、持続性がありません。エージェントが特定の行動(例:JACOが赤いキューブを持ち上げる)を繰り返すにつれて、このポリシーによって蓄積される好奇心報酬は減少します。その結果、再びより高い好奇心報酬を獲得するように変更されたポリシーの学習が行われます(例:キューブをワークスペースの外に移動させる、または他のキューブに注意を向ける)。しかし、この新しい行動は古い行動を上書きしてしまいます。ただし、好奇心による探索から得られる新たな行動を保持することは、エージェントが新しいタスクをより速く学習するための貴重なスキルセットを備えると考えています。この仮説を調査するために、自己発見されたスキルの有用性を調べる実験を設定しました。
好奇心による探索の異なるフェーズからランダムにサンプリングされたスナップショットを、モジュラーラーニングフレームワーク[7]における補助スキルとして扱い、それらの補助スキルを使用して新しいターゲットスキルをどれだけ迅速に学習できるかを測定します。JACOアームの場合、ターゲットタスクは「赤いキューブを持ち上げる」であり、自己発見された行動を5つランダムに補助として使用します。この下流タスクの学習をSAC-Xベースライン[8]と比較します。SAC-Xベースラインでは、到達と赤いキューブの移動を報酬とするカリキュラムを使用し、最終的に持ち上げることを学習することを促進します。このシンプルなスキル再利用のセットアップでも、手動で設計された報酬カリキュラムと同様に、下流タスクの学習進捗を加速させることがわかります。結果から、好奇心による探索からの有用な新興行動の自動識別と保持が、非監督学習における将来の研究の有望な方向性であることが示唆されます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles