UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化
「UCサンディエゴの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習が革命を起こす」
大きな言語モデル(LLM)は、人工知能と機械学習の進歩のおかげで絶えず改善されています。 LLMは、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどのAIのサブフィールドで大きな進展を遂げています。これらのモデルは、大規模なインターネットスケールのデータセットでトレーニングされ、さまざまな言語とビジュアルのタスクを処理できるジェネラリストモデルを開発します。大規模なデータセットとデータとモデルのサイズに効果的にスケーリングできる綿密に考えられたアーキテクチャの存在が成長の要因とされています。
最近では、LLMはロボティクスにも成功裏に応用されています。ただし、広範な未整理のデータセットから多くの制御タスクを低レベルアクションで学習するジェネラリストエンボディドエージェントはまだ実現していません。ジェネラリストエンボディドエージェントに対する現在のアプローチは2つの主要な障害に直面しています。
- 近接専門家軌道の仮定:利用可能なデータ量の制約により、多くの既存の行動クローニングの手法では近接専門家軌道に頼っています。これは、エージェントが異なるタスクに対して柔軟性が低くなることを意味し、専門家のような高品質なデモから学習する必要があります。
- 拡張コントロール方法のスケーラビリティの欠如:数多くのスケーラブルな連続制御方法は、大規模で整理されていないデータセットを効果的に処理できません。既存の強化学習(RL)アルゴリズムの多くは、タスク固有のハイパーパラメータに依存し、単一のタスク学習に最適化されています。
これらの課題への解決策として、研究チームは最近、モデルベースのRLアルゴリズムのTD-MPC(Trajectory Distribution Model Predictive Control)ファミリーの拡張であるTD-MPC2を紹介しました。さまざまなタスクドメイン、エンボディメント、アクションスペースにわたる大規模な未整理のデータセットを使用してTD-MPC2をトレーニングし、ジェネラリストワールドモデルの構築に役立つシステムを作成しました。その主要な特徴の1つは、ハイパーパラメータの調整が必要ないことです。
- このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています
- 中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです
- 中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」
TD-MPC2の主な要素は次のとおりです。
- 潜在空間でのローカル軌道最適化:デコーダーの必要がないため、TD-MPC2はトレーニング済みの暗黙のワールドモデルの潜在空間でローカル軌道最適化を行います。
- アルゴリズムの頑健性:重要な設計決定を再び確認することで、アルゴリズムはより強固になります。
- 多様なエンボディメントとアクションスペースのアーキテクチャ:事前のドメインエキスパートの要件を必要とせず、アーキテクチャは複数のエンボディメントとアクションスペースをサポートするように慎重に作成されています。
研究チームは、評価の結果、TD-MPC2が現在使用されているさまざまな連続制御タスクに対してモデルベースとモデルフリーのアプローチよりも優れたパフォーマンスを実現していることを示しました。特にピックアンドプレースや移動タスクなどの難しいサブセットでは特に優れた結果を示します。エージェントの増加した能力は、モデルとデータのサイズが増えるにつれてスケーラビリティを示しています。
研究チームは、TD-MPC2のいくつかの注目すべき特徴を以下にまとめています。
- パフォーマンスの向上:さまざまなRLタスクで使用すると、TD-MPC2はベースラインのアルゴリズムよりも改善を提供します。
- 単一のハイパーパラメータとの一貫性:TD-MPC2の主な利点の1つは、単一のハイパーパラメータで信頼性のある印象的な結果を生み出す能力です。これにより、チューニング手順が簡素化され、さまざまなジョブに適用されやすくなります。
- スケーラビリティ:モデルとデータのサイズが増えるにつれてエージェントの能力が増す。このスケーラビリティは、より複雑なジョブの管理およびさまざまな状況への適応に重要です。
研究チームは、317百万のパラメータを持つ単一のエージェントをトレーニングして80のタスクを達成し、TD-MPC2のスケーラビリティと効果を示しました。これらのタスクでは、複数のエンボディメント(エージェントの物理的な形態)および複数のタスクドメインにわたるアクションスペースが必要です。これは、TD-MPC2の柔軟性と強力さを示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このOpenAIの研究では、DALL-E 3を紹介していますこのモデルは、より高度なプロンプトの追従機能を備えたテキストから画像への変換を革新しています
- 「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」
- ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介
- メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム
- CMU(カーネギーメロン大学)およびNYU(ニューヨーク大学)の研究者たちは、大規模言語モデル(LLM)を用いたゼロショット時系列予測のための人工知能メソッド「LLMTime」を提案しています
- シリコンボレー:デザイナーがチップ支援のために生成AIを活用
- バイデン大統領がAI実行命令を発布し、安全評価、市民権のガイダンス、労働市場への影響に関する研究を要求しています