好奇心だけで十分なのか? 好奇心による探索からの新たな振る舞いの有用性について

好奇心だけで十分か?新たな振る舞いの有用性についての探索

純粋な好奇心の探索中に、JACOアームはキューブを持ち上げる方法を発見し、ワークスペース内でそれらを移動させ、さらにそのエッジにバランスを取ることができるかどうかを探求します。

好奇心のある探索により、OP3は直立歩行、片足でのバランス、座ること、さらには後ろに飛び跳ねる際の安全なキャッチなど、特定のターゲットタスクを最適化する必要はない状態でこれらの動作を実現します。

内発的動機づけ[1, 2]は、タスク情報のない状態でエージェントが環境を持続的に探索するメカニズムを持たせるための強力な概念です。好奇心学習[3, 4]を通じて内発的動機づけを実装する一般的な方法の1つです。この方法では、エージェントのポリシーと並行して、エージェントの行動に対する環境の反応についての予測モデルがトレーニングされます。このモデルはワールドモデルとも呼ばれます。アクションが実行されると、ワールドモデルはエージェントの次の観測について予測を行います。この予測は、エージェントが行った真の観測と比較されます。重要な点は、このアクションに対してエージェントに与えられる報酬が、次の観測を予測する際にエージェントが犯したエラーによってスケーリングされることです。この方法により、アウトカムがまだ十分に予測できないアクションを取ることに対してエージェントは報酬を得ます。同時に、ワールドモデルはそのアクションの結果をよりよく予測するように更新されます。

このメカニズムは、オンポリシーの設定で成功裏に適用されてきました。例えば、非教師付きの方法で2Dコンピュータゲームを打ち負かしたり、具体的な下流タスクに容易に適応可能な一般的なポリシーをトレーニングしたりするために使用されました。しかし、私たちは好奇心学習の真の強みは、好奇心のある探索プロセス中に現れる多様な行動にあると考えています。好奇心の目標が変化すると、エージェントの結果行動も変化し、後で利用できるように保持されなければならない多くの複雑なポリシーを発見することができます。

本論文では、好奇心学習を研究し、その新興行動を活用するために2つの貢献を行います。第一に、自己動機づけの好奇心ベースの探索のオフポリシー実現であるSelMoを紹介します。シミュレートされた操作と移動ドメインで好奇心目標の最適化に基づいて意味のある多様な行動が生じることを示します。第二に、好奇心学習の応用において新たに浮かび上がる中間行動の特定と保持に焦点を当てる提案を行います。この仮説を支持するために、階層的強化学習のセットアップで、自己発見された行動を事前学習済みの補助的なスキルとして再読み込みする実験を行います。

<img alt="SelMoメソッドの制御フロー:エージェント(アクター)は現在のポリシーを使用して環境で軌跡を収集し、それらを左側のモデル再生バッファに保存します。接続されたワールドモデルはそのバッファから均等にサンプリングし、確率的勾配降下法(SGD)を使用して前方予測のためのパラメータを更新します。サンプリングされた軌跡は、現在のワールドモデルの下での予測エラーによってスケーリングされた好奇心報酬が割り当てられます。ラベル付けされた軌跡は右側のポリシーリプレイバッファに渡されます。最大事後ポリシー最適化(MPO)[6]は、ポリシーリプレイからのサンプルに基づいてQ関数とポリシーを適合させるために使用されます。その結果、更新されたポリシーはアクターに同期されます。

SelMoを6自由度のJACOアーム(三本指のグリッパーを備えた)および20自由度のヒューマノイドロボットであるOP3の2つのシミュレートされた連続制御ロボットドメインで実行します。それぞれのプラットフォームは、物体操作および移動において学習が難しい環境を提供します。好奇心のみを最適化する場合、トレーニングの過程で複雑な、人間が解釈可能な行動が生じることを観察します。例えば、JACOは監視なしでキューブを持ち上げて移動することを学び、OP3は倒れずに片足でバランスを取ったり安全に座ったりすることを学びます。

JACOとOP3の例におけるトレーニングタイムライン。好奇心の目的を最適化する際、操作と移動の両方で複雑で意味のある行動が現れます。フルビデオはこのページの上部にあります。

ただし、好奇心による探索中に観察される印象的な行動には一つの重要な欠点があります:好奇心報酬関数によって変化し続けるため、持続性がありません。エージェントが特定の行動(例:JACOが赤いキューブを持ち上げる)を繰り返すにつれて、このポリシーによって蓄積される好奇心報酬は減少します。その結果、再びより高い好奇心報酬を獲得するように変更されたポリシーの学習が行われます(例:キューブをワークスペースの外に移動させる、または他のキューブに注意を向ける)。しかし、この新しい行動は古い行動を上書きしてしまいます。ただし、好奇心による探索から得られる新たな行動を保持することは、エージェントが新しいタスクをより速く学習するための貴重なスキルセットを備えると考えています。この仮説を調査するために、自己発見されたスキルの有用性を調べる実験を設定しました。

好奇心による探索の異なるフェーズからランダムにサンプリングされたスナップショットを、モジュラーラーニングフレームワーク[7]における補助スキルとして扱い、それらの補助スキルを使用して新しいターゲットスキルをどれだけ迅速に学習できるかを測定します。JACOアームの場合、ターゲットタスクは「赤いキューブを持ち上げる」であり、自己発見された行動を5つランダムに補助として使用します。この下流タスクの学習をSAC-Xベースライン[8]と比較します。SAC-Xベースラインでは、到達と赤いキューブの移動を報酬とするカリキュラムを使用し、最終的に持ち上げることを学習することを促進します。このシンプルなスキル再利用のセットアップでも、手動で設計された報酬カリキュラムと同様に、下流タスクの学習進捗を加速させることがわかります。結果から、好奇心による探索からの有用な新興行動の自動識別と保持が、非監督学習における将来の研究の有望な方向性であることが示唆されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「2024年のトップ5大学の証明書」

「大学の証明書が技術セクターに特化した知識と専門知識の扉を開く方法を探索してください」

AIテクノロジー

2023年の最高の6つの人工知能(AI)ETF

ETFはAIに投資する便利で多様化された方法を提供します2023年最高の6つの人工知能(AI)ETFを探ってみましょう

AIテクノロジー

「マーケティングにおける人工知能の短いガイド」

「デジタルマーケティングにおける人工知能の役割や、ビジネスにおける他のAIツールがデータに基づく意思決定に与える影響に...

機械学習

魅力的な方法:AIが人々がドイツ語や他の言語をマスターするのを助ける方法

ここ数年、人工知能は革命的な存在であると言っても過言ではありません様々な分野で普及しており、興味深いことに、言語学習...

AIテクノロジー

「AIがデジタルツインを2024年にどのように変えているか」

2024年には、AIがデジタルツインを通じて産業をどのように変革しているのかを探求してくださいデータ収集、予測分析、リアル...

AIテクノロジー

「パーソナライズされたパッケージソリューション:カスタマイズにおけるAIの役割」

画像ソース:Pexels製品のパッケージングは、有形の商品を扱うすべてのビジネスにとって非常に重要な要素となりますそして、...