UCバークレーの研究者たちは、ビデオ予測報酬(VIPER)というアルゴリズムを紹介しましたこれは、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用しています

UCバークレーの研究者は、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用するアルゴリズム「VIPER」を紹介しました

手作業で報酬関数を設計することは時間がかかり、予期しない結果をもたらす可能性があります。これは、強化学習(RL)ベースの汎用意思決定エージェントの開発における主要な障害です。

従来のビデオベースの学習方法では、現在の観測値がエキスパートのものに最も似ているエージェントを報酬することができます。ただし、報酬は現在の観測値にのみ依存するため、時間を通じた意味のある活動を捉えることはできません。また、敵対的なトレーニング技術によるモードの崩壊により、一般化が妨げられます。

UCバークレーの研究者は、ビデオ予測モデルからインセンティブを抽出するための新しい方法、ビデオ予測インセンティブ強化学習(VIPER)を開発しました。VIPERは、生の映画から報酬関数を学習し、未学習のドメインにも一般化することができます。

まず、VIPERはエキスパートによって生成された映画を使用して予測モデルを訓練します。次に、ビデオ予測モデルを使用して強化学習のエージェントを訓練し、エージェントの軌跡の対数尤度を最適化します。エージェントの軌跡の分布は、ビデオモデルの分布と一致するように最小化する必要があります。ビデオモデルの尤度を直接報酬信号として使用することで、エージェントはビデオモデルと似た軌跡分布をたどるように訓練されることがあります。観測レベルの報酬とは異なり、ビデオモデルによって提供される報酬は行動の時間的一貫性を定量化します。また、尤度の評価はビデオモデルのロールアウトよりもはるかに高速であるため、より迅速なトレーニング時間枠と環境とのより大きな相互作用を可能にします。

15のDMCタスク、6のRLBenchタスク、7のAtariタスクを対象に、チームは徹底的な研究を行い、VIPERがタスクの報酬を使用せずにエキスパートレベルの制御を達成できることを示しています。調査結果によると、VIPERで訓練されたRLエージェントは、敵対的な模倣学習を上回ります。VIPERは設定に統合されているため、どのRLエージェントが使用されているかは関係ありません。ビデオモデルは、トレーニング中に遭遇しなかった腕/タスクの組み合わせにすでに一般化されています。

研究者たちは、大規模な事前学習済み条件付きビデオモデルを使用することで、より柔軟な報酬関数が可能になると考えています。生成モデリングの最近のブレークスルーのおかげで、彼らの研究は未ラベルの映画からのスケーラブルな報酬指定のためのコミュニティに基盤を提供していると信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「RecMindと出会ってください:推薦タスクのための推論、行動、およびメモリを組み合わせた大規模言語モデル技術によって駆動される自律型の推薦エージェント」

人工知能とディープラーニングの人気が高まるにつれて、ほぼすべてのアプリケーションがAIの能力を利用して作業を進めていま...

機械学習

「言語モデルにおける連鎖思考推論の力を明らかにする 認知能力、解釈可能性、自律言語エージェントに関する包括的な調査」

上海交通大学、Amazon Web Services、イェール大学による研究は、言語エージェントにおけるチェーンオブソート(CoT)技術の...

機械学習

「Code Llama内部:Meta AIがCode LLMスペースへの参入」

コーディングは、大規模言語モデル(LLM)の最も活発な活動の1つに急速になっていますOpenAIが昨年Codex(現在はGPT-4の一部...

機械学習

マシンラーニングにとっての「最悪のシナリオを防ぐ競争」

A.I.企業は、児童性的虐待物資の作成や流通を阻止する面で優位に立っています彼らは、ソーシャルメディア企業が失敗したこと...

データサイエンス

オープンソースのベクトルデータベースChromaDBを使用して、セマンティック検索アプリケーションを構築する

はじめに AIアプリケーションとユースケースの台頭に伴い、AIアプリケーションを容易にし、AI開発者が実世界のアプリケーショ...

データサイエンス

Amazon SageMaker Data WranglerのSnowflakeへの直接接続でビジネスインサイトまでの時間を短縮してください

Amazon SageMaker Data Wranglerは、1つのビジュアルインターフェイスで、コードを書くことなく機械学習(ML)ワークフローで...