UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化

「UCサンディエゴの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習が革命を起こす」

大きな言語モデル(LLM)は、人工知能と機械学習の進歩のおかげで絶えず改善されています。 LLMは、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどのAIのサブフィールドで大きな進展を遂げています。これらのモデルは、大規模なインターネットスケールのデータセットでトレーニングされ、さまざまな言語とビジュアルのタスクを処理できるジェネラリストモデルを開発します。大規模なデータセットとデータとモデルのサイズに効果的にスケーリングできる綿密に考えられたアーキテクチャの存在が成長の要因とされています。

最近では、LLMはロボティクスにも成功裏に応用されています。ただし、広範な未整理のデータセットから多くの制御タスクを低レベルアクションで学習するジェネラリストエンボディドエージェントはまだ実現していません。ジェネラリストエンボディドエージェントに対する現在のアプローチは2つの主要な障害に直面しています。

  1. 近接専門家軌道の仮定:利用可能なデータ量の制約により、多くの既存の行動クローニングの手法では近接専門家軌道に頼っています。これは、エージェントが異なるタスクに対して柔軟性が低くなることを意味し、専門家のような高品質なデモから学習する必要があります。
  1. 拡張コントロール方法のスケーラビリティの欠如:数多くのスケーラブルな連続制御方法は、大規模で整理されていないデータセットを効果的に処理できません。既存の強化学習(RL)アルゴリズムの多くは、タスク固有のハイパーパラメータに依存し、単一のタスク学習に最適化されています。

これらの課題への解決策として、研究チームは最近、モデルベースのRLアルゴリズムのTD-MPC(Trajectory Distribution Model Predictive Control)ファミリーの拡張であるTD-MPC2を紹介しました。さまざまなタスクドメイン、エンボディメント、アクションスペースにわたる大規模な未整理のデータセットを使用してTD-MPC2をトレーニングし、ジェネラリストワールドモデルの構築に役立つシステムを作成しました。その主要な特徴の1つは、ハイパーパラメータの調整が必要ないことです。

TD-MPC2の主な要素は次のとおりです。

  1. 潜在空間でのローカル軌道最適化:デコーダーの必要がないため、TD-MPC2はトレーニング済みの暗黙のワールドモデルの潜在空間でローカル軌道最適化を行います。
  1. アルゴリズムの頑健性:重要な設計決定を再び確認することで、アルゴリズムはより強固になります。
  1. 多様なエンボディメントとアクションスペースのアーキテクチャ:事前のドメインエキスパートの要件を必要とせず、アーキテクチャは複数のエンボディメントとアクションスペースをサポートするように慎重に作成されています。

研究チームは、評価の結果、TD-MPC2が現在使用されているさまざまな連続制御タスクに対してモデルベースとモデルフリーのアプローチよりも優れたパフォーマンスを実現していることを示しました。特にピックアンドプレースや移動タスクなどの難しいサブセットでは特に優れた結果を示します。エージェントの増加した能力は、モデルとデータのサイズが増えるにつれてスケーラビリティを示しています。

研究チームは、TD-MPC2のいくつかの注目すべき特徴を以下にまとめています。

  1. パフォーマンスの向上:さまざまなRLタスクで使用すると、TD-MPC2はベースラインのアルゴリズムよりも改善を提供します。
  1. 単一のハイパーパラメータとの一貫性:TD-MPC2の主な利点の1つは、単一のハイパーパラメータで信頼性のある印象的な結果を生み出す能力です。これにより、チューニング手順が簡素化され、さまざまなジョブに適用されやすくなります。
  1. スケーラビリティ:モデルとデータのサイズが増えるにつれてエージェントの能力が増す。このスケーラビリティは、より複雑なジョブの管理およびさまざまな状況への適応に重要です。

研究チームは、317百万のパラメータを持つ単一のエージェントをトレーニングして80のタスクを達成し、TD-MPC2のスケーラビリティと効果を示しました。これらのタスクでは、複数のエンボディメント(エージェントの物理的な形態)および複数のタスクドメインにわたるアクションスペースが必要です。これは、TD-MPC2の柔軟性と強力さを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトとコロンビア大学の研究者が提案する「LLM-AUGMENTER」は、ブラックボックスLLMに一連のプラグアンドプレイモジュールを追加するAIシステムです

大規模言語モデル(LLM)の例としてGPT-3は、広範な世界知識を持つため、一貫性のある情報豊かな自然言語テキストを生成する...

機械学習

「ディープラーニングモデルのレイヤーを凍結する方法 - 正しいやり方」

「モデルの微調整を行いたい場合や、処理する例に応じて一部のパラメータを固定することは、しばしば有用です以下の例で示さ...

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...

機械学習

大規模言語モデル:RoBERTa — ロバストに最適化されたBERTアプローチ

BERTモデルの登場は、自然言語処理(NLP)の大きな進歩をもたらしましたBERTはTransformerからアーキテクチャを派生させ、言...

人工知能

AIを学校に持ち込む:MITのアナント・アガルワルとの対話

NVIDIAのAI Podcastの最新エピソードで、edXの創設者であり2Uの最高プラットフォーム責任者であるAnant Agarwal氏は、オンラ...

機械学習

時系列のLSTMモデルの5つの実践的な応用とコード

「2022年1月に『時系列のためのLSTMニューラルネットワークモデルの探求』を書いたとき、私の目標は、高度なニューラルネット...