UCバークレーの研究者たちは、ビデオ予測報酬(VIPER)というアルゴリズムを紹介しましたこれは、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用しています
UCバークレーの研究者は、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用するアルゴリズム「VIPER」を紹介しました
手作業で報酬関数を設計することは時間がかかり、予期しない結果をもたらす可能性があります。これは、強化学習(RL)ベースの汎用意思決定エージェントの開発における主要な障害です。
従来のビデオベースの学習方法では、現在の観測値がエキスパートのものに最も似ているエージェントを報酬することができます。ただし、報酬は現在の観測値にのみ依存するため、時間を通じた意味のある活動を捉えることはできません。また、敵対的なトレーニング技術によるモードの崩壊により、一般化が妨げられます。
UCバークレーの研究者は、ビデオ予測モデルからインセンティブを抽出するための新しい方法、ビデオ予測インセンティブ強化学習(VIPER)を開発しました。VIPERは、生の映画から報酬関数を学習し、未学習のドメインにも一般化することができます。
- 「このAI研究は、合成的なタスクにおけるTransformer Large Language Models(LLMs)の制限と能力を、経験的および理論的に探求します」
- 「Pythia 詳細な研究のための16個のLLMスイート」
- 「新しいAI研究が、PanGu-Coder2モデルとRRTFフレームワークを提案し、コード生成のための事前学習済み大規模言語モデルを効果的に向上させる」というものです
まず、VIPERはエキスパートによって生成された映画を使用して予測モデルを訓練します。次に、ビデオ予測モデルを使用して強化学習のエージェントを訓練し、エージェントの軌跡の対数尤度を最適化します。エージェントの軌跡の分布は、ビデオモデルの分布と一致するように最小化する必要があります。ビデオモデルの尤度を直接報酬信号として使用することで、エージェントはビデオモデルと似た軌跡分布をたどるように訓練されることがあります。観測レベルの報酬とは異なり、ビデオモデルによって提供される報酬は行動の時間的一貫性を定量化します。また、尤度の評価はビデオモデルのロールアウトよりもはるかに高速であるため、より迅速なトレーニング時間枠と環境とのより大きな相互作用を可能にします。
15のDMCタスク、6のRLBenchタスク、7のAtariタスクを対象に、チームは徹底的な研究を行い、VIPERがタスクの報酬を使用せずにエキスパートレベルの制御を達成できることを示しています。調査結果によると、VIPERで訓練されたRLエージェントは、敵対的な模倣学習を上回ります。VIPERは設定に統合されているため、どのRLエージェントが使用されているかは関係ありません。ビデオモデルは、トレーニング中に遭遇しなかった腕/タスクの組み合わせにすでに一般化されています。
研究者たちは、大規模な事前学習済み条件付きビデオモデルを使用することで、より柔軟な報酬関数が可能になると考えています。生成モデリングの最近のブレークスルーのおかげで、彼らの研究は未ラベルの映画からのスケーラブルな報酬指定のためのコミュニティに基盤を提供していると信じています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「AIと脳インプラントにより、麻痺した男性の運動と感覚が回復する」
- UCバークレーの研究者が、Neural Radiance Field(NeRF)の開発に利用できるPythonフレームワーク「Nerfstudio」を紹介しました
- AIを使用してAI画像の改ざんを防ぐ
- 「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」
- 中国からの新しいAI研究が提案するSHIP:既存のファインチューニング手法を改善するためのプラグアンドプレイの生成AIアプローチ
- ETHチューリッヒの研究者たちは、LMQLという言語モデルとの相互作用のためのプログラミング言語を紹介しました
- 「Google DeepMindと東京大学の研究者が、WebAgentを紹介:自然言語の指示に従って実際のウェブサイト上のタスクを完了できるLLM-Drivenエージェント」