UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化

「UCサンディエゴの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習が革命を起こす」

大きな言語モデル(LLM)は、人工知能と機械学習の進歩のおかげで絶えず改善されています。 LLMは、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどのAIのサブフィールドで大きな進展を遂げています。これらのモデルは、大規模なインターネットスケールのデータセットでトレーニングされ、さまざまな言語とビジュアルのタスクを処理できるジェネラリストモデルを開発します。大規模なデータセットとデータとモデルのサイズに効果的にスケーリングできる綿密に考えられたアーキテクチャの存在が成長の要因とされています。

最近では、LLMはロボティクスにも成功裏に応用されています。ただし、広範な未整理のデータセットから多くの制御タスクを低レベルアクションで学習するジェネラリストエンボディドエージェントはまだ実現していません。ジェネラリストエンボディドエージェントに対する現在のアプローチは2つの主要な障害に直面しています。

  1. 近接専門家軌道の仮定:利用可能なデータ量の制約により、多くの既存の行動クローニングの手法では近接専門家軌道に頼っています。これは、エージェントが異なるタスクに対して柔軟性が低くなることを意味し、専門家のような高品質なデモから学習する必要があります。
  1. 拡張コントロール方法のスケーラビリティの欠如:数多くのスケーラブルな連続制御方法は、大規模で整理されていないデータセットを効果的に処理できません。既存の強化学習(RL)アルゴリズムの多くは、タスク固有のハイパーパラメータに依存し、単一のタスク学習に最適化されています。

これらの課題への解決策として、研究チームは最近、モデルベースのRLアルゴリズムのTD-MPC(Trajectory Distribution Model Predictive Control)ファミリーの拡張であるTD-MPC2を紹介しました。さまざまなタスクドメイン、エンボディメント、アクションスペースにわたる大規模な未整理のデータセットを使用してTD-MPC2をトレーニングし、ジェネラリストワールドモデルの構築に役立つシステムを作成しました。その主要な特徴の1つは、ハイパーパラメータの調整が必要ないことです。

TD-MPC2の主な要素は次のとおりです。

  1. 潜在空間でのローカル軌道最適化:デコーダーの必要がないため、TD-MPC2はトレーニング済みの暗黙のワールドモデルの潜在空間でローカル軌道最適化を行います。
  1. アルゴリズムの頑健性:重要な設計決定を再び確認することで、アルゴリズムはより強固になります。
  1. 多様なエンボディメントとアクションスペースのアーキテクチャ:事前のドメインエキスパートの要件を必要とせず、アーキテクチャは複数のエンボディメントとアクションスペースをサポートするように慎重に作成されています。

研究チームは、評価の結果、TD-MPC2が現在使用されているさまざまな連続制御タスクに対してモデルベースとモデルフリーのアプローチよりも優れたパフォーマンスを実現していることを示しました。特にピックアンドプレースや移動タスクなどの難しいサブセットでは特に優れた結果を示します。エージェントの増加した能力は、モデルとデータのサイズが増えるにつれてスケーラビリティを示しています。

研究チームは、TD-MPC2のいくつかの注目すべき特徴を以下にまとめています。

  1. パフォーマンスの向上:さまざまなRLタスクで使用すると、TD-MPC2はベースラインのアルゴリズムよりも改善を提供します。
  1. 単一のハイパーパラメータとの一貫性:TD-MPC2の主な利点の1つは、単一のハイパーパラメータで信頼性のある印象的な結果を生み出す能力です。これにより、チューニング手順が簡素化され、さまざまなジョブに適用されやすくなります。
  1. スケーラビリティ:モデルとデータのサイズが増えるにつれてエージェントの能力が増す。このスケーラビリティは、より複雑なジョブの管理およびさまざまな状況への適応に重要です。

研究チームは、317百万のパラメータを持つ単一のエージェントをトレーニングして80のタスクを達成し、TD-MPC2のスケーラビリティと効果を示しました。これらのタスクでは、複数のエンボディメント(エージェントの物理的な形態)および複数のタスクドメインにわたるアクションスペースが必要です。これは、TD-MPC2の柔軟性と強力さを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

レコメンダーシステムにおけるPrecision@NとRecall@Nの解説

Accuracy Metrics(正解率指標)は、機械学習の全体的なパフォーマンスを評価するための有用な指標であり、データセット内の...

機械学習

『Talent.com』において

この投稿は、アナトリー・ホメンコ(機械学習エンジニア)とアブデノール・ベズーウ(テクノロジー担当最高技術責任者)によ...

AIニュース

「ベストプロキシサーバー(2023年9月)」

プロキシサーバは、コンピュータが自分自身の代わりにリクエストを行うためのネットワーク上で動作するアプリケーションまた...

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...

AI研究

「UCSCとTU Munichの研究者が、余震を予測するための新しいディープラーニングベースのモデルであるRECASTを提案する」

人工知能はほぼすべての可能な分野に進出しています。この領域では広範な研究が行われています。私たちはまだまだ発見すべき...

機械学習

SalesforceはXGen-7Bを導入:1.5Tトークンのために8Kシーケンス長でトレーニングされた新しい7B LLMを紹介します

最近の人工知能の技術的なブレークスルーにより、Large Language Models(LLMs)はますます一般的になっています。過去数年間...