BYOL-Explore ブートストラップ予測による探索
BYOL-Explore 探索のためのブートストラップ予測
好奇心に基づく探索は、エージェントが環境の理解を向上させるために新しい情報を求める積極的なプロセスです。エージェントが過去のイベントの履歴を元に未来のイベントを予測できるワールドモデルを学習しているとします。好奇心に基づくエージェントは、ワールドモデルの予測の不一致を内在的な報酬として使用し、新しい情報を求めるための探索方針を指示することができます。この新しい情報を使用して、ワールドモデル自体を向上させ、より良い予測を行うことができます。この反復プロセスにより、エージェントは最終的に世界のあらゆる新奇さを探索し、この情報を使用して正確なワールドモデルを構築することができます。
コンピュータビジョン、グラフ表現学習、RLでの表現学習に適用されてきたBootstrap Your Own Latent(BYOL)の成功に触発されて、私たちはBYOL-Exploreを提案します。BYOL-Exploreは、困難な探索タスクを解決するための概念的にシンプルで汎用性のある好奇心に基づくAIエージェントです。BYOL-Exploreは、自分自身の将来の表現を予測することによって世界の表現を学習します。それから、表現レベルでの予測エラーを内在的な報酬として使用して好奇心に基づくポリシーを訓練します。したがって、BYOL-Exploreは、表現レベルでの予測エラーを最適化することで、世界の表現、世界のダイナミクス、好奇心に基づく探索ポリシーをすべて一緒に学習します。
設計のシンプルさにもかかわらず、DM-HARD-8のスイートに適用すると、BYOL-Exploreはランダムネットワーク蒸留(RND)やIntrinsic Curiosity Module(ICM)などの標準の好奇心に基づく探索手法を上回ります。すべてのタスクで測定された平均キャップされた人間正規化スコア(CHNS)の観点からの性能です。驚くべきことに、BYOL-Exploreは、すべてのタスクで同時に訓練される単一のネットワークのみを使用してこのパフォーマンスを達成しました。一方、これまでの研究は単一タスクの設定に制限され、人間の専門家のデモが提供された場合にのみこれらのタスクで意味のある進展を遂げることができました。
その汎用性の証拠として、BYOL-Exploreは10の最も困難な探索Atariゲームで超人的なパフォーマンスを達成し、Agent57やGo-Exploreなどの他の競合エージェントよりもシンプルな設計です。
今後、BYOL-Exploreを高度に確率的な環境に一般化することができます。これは将来のイベントの軌跡を生成するために使用できる確率的なワールドモデルを学習することによって実現できます。これにより、エージェントは環境の可能な確率性をモデル化し、確率的な罠を回避し、探索の計画を立てることができるかもしれません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles