UCバークレーの研究者たちは、ビデオ予測報酬(VIPER)というアルゴリズムを紹介しましたこれは、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用しています

UCバークレーの研究者は、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用するアルゴリズム「VIPER」を紹介しました

手作業で報酬関数を設計することは時間がかかり、予期しない結果をもたらす可能性があります。これは、強化学習(RL)ベースの汎用意思決定エージェントの開発における主要な障害です。

従来のビデオベースの学習方法では、現在の観測値がエキスパートのものに最も似ているエージェントを報酬することができます。ただし、報酬は現在の観測値にのみ依存するため、時間を通じた意味のある活動を捉えることはできません。また、敵対的なトレーニング技術によるモードの崩壊により、一般化が妨げられます。

UCバークレーの研究者は、ビデオ予測モデルからインセンティブを抽出するための新しい方法、ビデオ予測インセンティブ強化学習(VIPER)を開発しました。VIPERは、生の映画から報酬関数を学習し、未学習のドメインにも一般化することができます。

まず、VIPERはエキスパートによって生成された映画を使用して予測モデルを訓練します。次に、ビデオ予測モデルを使用して強化学習のエージェントを訓練し、エージェントの軌跡の対数尤度を最適化します。エージェントの軌跡の分布は、ビデオモデルの分布と一致するように最小化する必要があります。ビデオモデルの尤度を直接報酬信号として使用することで、エージェントはビデオモデルと似た軌跡分布をたどるように訓練されることがあります。観測レベルの報酬とは異なり、ビデオモデルによって提供される報酬は行動の時間的一貫性を定量化します。また、尤度の評価はビデオモデルのロールアウトよりもはるかに高速であるため、より迅速なトレーニング時間枠と環境とのより大きな相互作用を可能にします。

15のDMCタスク、6のRLBenchタスク、7のAtariタスクを対象に、チームは徹底的な研究を行い、VIPERがタスクの報酬を使用せずにエキスパートレベルの制御を達成できることを示しています。調査結果によると、VIPERで訓練されたRLエージェントは、敵対的な模倣学習を上回ります。VIPERは設定に統合されているため、どのRLエージェントが使用されているかは関係ありません。ビデオモデルは、トレーニング中に遭遇しなかった腕/タスクの組み合わせにすでに一般化されています。

研究者たちは、大規模な事前学習済み条件付きビデオモデルを使用することで、より柔軟な報酬関数が可能になると考えています。生成モデリングの最近のブレークスルーのおかげで、彼らの研究は未ラベルの映画からのスケーラブルな報酬指定のためのコミュニティに基盤を提供していると信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティ...

機械学習

「見えないものを拡大する:この人工知能AIの手法は、3Dで微妙な動きを可視化するためにNeRFを使用します」

私たちは、身体の微妙な動きから地球の大規模な動きまで、動きに満ちた世界に生きています。しかし、これらの動きの多くは肉...

AI研究

ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対...

AI研究

「読むべき創造的エージェント研究論文」

見逃せないエキサイティングな分野に関する研究論文

機械学習

AI/MLを活用してインテリジェントなサプライチェーンを構築するための始め方

「異なる供給チェーンの要素に対するAI/MLの使用事例と価値提案:計画、調達、製造、配送、逆物流」

AI研究

バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています

現代のゲームやメディア業界のパイプラインにおいて重要な段階であるにもかかわらず、3Dコンテンツの作成は時間のかかる作業...