好奇心だけで十分なのか? 好奇心による探索からの新たな振る舞いの有用性について

好奇心だけで十分か?新たな振る舞いの有用性についての探索

純粋な好奇心の探索中に、JACOアームはキューブを持ち上げる方法を発見し、ワークスペース内でそれらを移動させ、さらにそのエッジにバランスを取ることができるかどうかを探求します。

好奇心のある探索により、OP3は直立歩行、片足でのバランス、座ること、さらには後ろに飛び跳ねる際の安全なキャッチなど、特定のターゲットタスクを最適化する必要はない状態でこれらの動作を実現します。

内発的動機づけ[1, 2]は、タスク情報のない状態でエージェントが環境を持続的に探索するメカニズムを持たせるための強力な概念です。好奇心学習[3, 4]を通じて内発的動機づけを実装する一般的な方法の1つです。この方法では、エージェントのポリシーと並行して、エージェントの行動に対する環境の反応についての予測モデルがトレーニングされます。このモデルはワールドモデルとも呼ばれます。アクションが実行されると、ワールドモデルはエージェントの次の観測について予測を行います。この予測は、エージェントが行った真の観測と比較されます。重要な点は、このアクションに対してエージェントに与えられる報酬が、次の観測を予測する際にエージェントが犯したエラーによってスケーリングされることです。この方法により、アウトカムがまだ十分に予測できないアクションを取ることに対してエージェントは報酬を得ます。同時に、ワールドモデルはそのアクションの結果をよりよく予測するように更新されます。

このメカニズムは、オンポリシーの設定で成功裏に適用されてきました。例えば、非教師付きの方法で2Dコンピュータゲームを打ち負かしたり、具体的な下流タスクに容易に適応可能な一般的なポリシーをトレーニングしたりするために使用されました。しかし、私たちは好奇心学習の真の強みは、好奇心のある探索プロセス中に現れる多様な行動にあると考えています。好奇心の目標が変化すると、エージェントの結果行動も変化し、後で利用できるように保持されなければならない多くの複雑なポリシーを発見することができます。

本論文では、好奇心学習を研究し、その新興行動を活用するために2つの貢献を行います。第一に、自己動機づけの好奇心ベースの探索のオフポリシー実現であるSelMoを紹介します。シミュレートされた操作と移動ドメインで好奇心目標の最適化に基づいて意味のある多様な行動が生じることを示します。第二に、好奇心学習の応用において新たに浮かび上がる中間行動の特定と保持に焦点を当てる提案を行います。この仮説を支持するために、階層的強化学習のセットアップで、自己発見された行動を事前学習済みの補助的なスキルとして再読み込みする実験を行います。

<img alt="SelMoメソッドの制御フロー:エージェント(アクター)は現在のポリシーを使用して環境で軌跡を収集し、それらを左側のモデル再生バッファに保存します。接続されたワールドモデルはそのバッファから均等にサンプリングし、確率的勾配降下法(SGD)を使用して前方予測のためのパラメータを更新します。サンプリングされた軌跡は、現在のワールドモデルの下での予測エラーによってスケーリングされた好奇心報酬が割り当てられます。ラベル付けされた軌跡は右側のポリシーリプレイバッファに渡されます。最大事後ポリシー最適化(MPO)[6]は、ポリシーリプレイからのサンプルに基づいてQ関数とポリシーを適合させるために使用されます。その結果、更新されたポリシーはアクターに同期されます。

SelMoを6自由度のJACOアーム(三本指のグリッパーを備えた)および20自由度のヒューマノイドロボットであるOP3の2つのシミュレートされた連続制御ロボットドメインで実行します。それぞれのプラットフォームは、物体操作および移動において学習が難しい環境を提供します。好奇心のみを最適化する場合、トレーニングの過程で複雑な、人間が解釈可能な行動が生じることを観察します。例えば、JACOは監視なしでキューブを持ち上げて移動することを学び、OP3は倒れずに片足でバランスを取ったり安全に座ったりすることを学びます。

JACOとOP3の例におけるトレーニングタイムライン。好奇心の目的を最適化する際、操作と移動の両方で複雑で意味のある行動が現れます。フルビデオはこのページの上部にあります。

ただし、好奇心による探索中に観察される印象的な行動には一つの重要な欠点があります:好奇心報酬関数によって変化し続けるため、持続性がありません。エージェントが特定の行動(例:JACOが赤いキューブを持ち上げる)を繰り返すにつれて、このポリシーによって蓄積される好奇心報酬は減少します。その結果、再びより高い好奇心報酬を獲得するように変更されたポリシーの学習が行われます(例:キューブをワークスペースの外に移動させる、または他のキューブに注意を向ける)。しかし、この新しい行動は古い行動を上書きしてしまいます。ただし、好奇心による探索から得られる新たな行動を保持することは、エージェントが新しいタスクをより速く学習するための貴重なスキルセットを備えると考えています。この仮説を調査するために、自己発見されたスキルの有用性を調べる実験を設定しました。

好奇心による探索の異なるフェーズからランダムにサンプリングされたスナップショットを、モジュラーラーニングフレームワーク[7]における補助スキルとして扱い、それらの補助スキルを使用して新しいターゲットスキルをどれだけ迅速に学習できるかを測定します。JACOアームの場合、ターゲットタスクは「赤いキューブを持ち上げる」であり、自己発見された行動を5つランダムに補助として使用します。この下流タスクの学習をSAC-Xベースライン[8]と比較します。SAC-Xベースラインでは、到達と赤いキューブの移動を報酬とするカリキュラムを使用し、最終的に持ち上げることを学習することを促進します。このシンプルなスキル再利用のセットアップでも、手動で設計された報酬カリキュラムと同様に、下流タスクの学習進捗を加速させることがわかります。結果から、好奇心による探索からの有用な新興行動の自動識別と保持が、非監督学習における将来の研究の有望な方向性であることが示唆されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

Office 365の移行と管理を外部委託する主な理由

「Office 365の移行と管理とは何ですか?Microsoft Office 365の移行は、多くの企業が従業員の働きやすい環境を提供するため...

データサイエンス

最適なデータ統合アプローチを選ぶためのガイド' (Saiteki na dēta tōgō apurōchi wo erabu tame no gaido)

エンタープライズは、アクション可能な洞察を開示し、意思決定を改善し、イノベーションを推進するために、シームレスなデー...

AIテクノロジー

「2023年に注目すべき10の環境テック企業」

これらの企業の力は、環境技術セクター内でのポジティブな変革を推進する能力を具体化しています

AIテクノロジー

チャットアプリ開発の主要な柱

このデジタル時代において、チャットアプリの開発は私たちのコミュニケーションの方法を変えてきましたスマートフォンの登場...

AIテクノロジー

「医療保険の種類と現代の技術」

「医療保険は、特に最新の技術を使用する場合、多くのお金を節約できますここでは、それがどのように機能し、具体的にどのよ...

AIテクノロジー

「人工知能と人間の知能の相互作用の探求」

この投稿は、人工知能と人間の知能が共存することで人類が得ることができるものを強調しています