RT-2 新しいモデルは、ビジョンと言語をアクションに変換します

RT-2新モデルは、ビジョンと言語をアクションに変換する

ロボティックトランスフォーマー2（RT-2）は、ウェブデータとロボットデータの両方から学習し、この知識をロボット制御の汎用的な命令に変換する画像言語行動（VLA）モデルです。

高容量の画像言語モデル（VLM）はウェブスケールのデータセットで訓練されており、これらのシステムは視覚的なパターンや言語パターンを認識し、異なる言語での操作を非常に得意としています。しかし、ロボットが同じレベルの能力を持つためには、オブジェクト、環境、タスク、状況ごとにロボットデータを直接収集する必要があります。

本論文では、ウェブデータとロボットデータの両方から学習し、この知識をロボット制御の汎用的な命令に変換する画像言語行動（VLA）モデルであるRobotic Transformer 2（RT-2）を紹介しています。さらに、ウェブスケールの機能を維持しながら、RT-2は改善された汎化能力と意味理解、視覚理解を示します。

ウェブスケールのデータで事前に訓練された画像言語モデル（VLM）が、RT-1のロボットデータから学習して、ロボットを制御できる画像言語行動（VLA）モデルであるRT-2になる様子を示しています。

この研究は、マルチタスクのデモンストレーションで訓練されたRobotic Transformer 1（RT-1）に基づいています。RT-1は、ロボットデータで見られるタスクとオブジェクトの組み合わせを学習することができます。具体的には、13台のロボットを17ヶ月間オフィスのキッチン環境で収集したRT-1のロボットデモンストレーションデータを使用しました。

RT-2は、ロボットデータから学習した知識を超えて、改善された汎化能力と意味理解、視覚理解を示します。これには、新しいコマンドの解釈やユーザーコマンドへの応答において、オブジェクトのカテゴリや高レベルの説明に関する推論などの基本的な推論を行う能力も含まれます。

また、連鎖思考の推論を組み込むことで、RT-2は、例えば岩を使った即席のハンマーとして使用できるオブジェクトや、疲れた人に最適な飲み物のタイプなど、多段階の意味的推論を行うことができます。

ロボット制御のためのVLMの適応

RT-2は、1つまたは複数の画像を入力として受け取り、通常は自然言語テキストを表すトークンのシーケンスを出力するVLMを基にしています。このようなVLMは、ビジュアルな質問応答、画像キャプショニング、オブジェクト認識などのタスクをウェブスケールのデータで成功裏に訓練することができます。私たちの研究では、Pathways Language and Image model (PaLI-X)とPathways Language model Embodied (PaLM-E)をRT-2のバックボーンとして適応しています。

ロボットを制御するためには、アクションを出力するようにロボットを訓練する必要があります。この課題には、モデルの出力でアクションをトークンとして表現し、標準的な自然言語のトークナイザで処理できる文字列としてアクションを記述することで対処しています。

RT-2のトレーニングで使用されるアクション文字列の表現。このような文字列の例は、ロボットアクショントークン番号のシーケンス、例えば “1 128 91 241 5 101 127 217” です。

文字列は、現在のエピソードを続行するか終了するかを示すフラグで始まり、次のコマンドを実行せずに現在のエピソードを終了する場合にはその後に位置と回転の変更コマンド、およびロボットグリッパーの所望の拡張コマンドが続きます。

RT-1と同様に、ロボットアクションの離散化バージョンを使用し、文字列表現に変換することで、VLMモデルをロボットデータで訓練できることを示しています。

‍

RT-2のアーキテクチャとトレーニング：事前に訓練されたVLMモデルをロボットとウェブデータで共同微調整します。結果として得られるモデルは、ロボットのカメラ画像を入力とし、ロボットが実行するアクションを直接予測します。

一般化と出現スキル

私たちはRT-2モデルについて、6,000回以上のロボットトライアルで一連の質的および量的な実験を行いました。RT-2の出現能力を探求するため、まずウェブスケールのデータとロボットの経験から知識を組み合わせる必要があるタスクを探し、その後、シンボル理解、推論、人間の認識の3つのスキルのカテゴリを定義しました。

各タスクでは、視覚的-意味的な概念を理解し、これらの概念に対してロボット制御を行う能力が必要でした。ロボットデータには存在しないオブジェクトやシナリオに対して「テーブルから落ちそうなバッグを持ち上げる」といったコマンドや「2プラス1の合計にバナナを移動する」といったコマンドなど、知識をウェブベースのデータから翻訳して操作する必要がありました。

ロボットデータには存在しないが、ウェブの事前学習からの知識転送が必要な出現型ロボットスキルの例

すべてのカテゴリにおいて、以前のベースラインである以前のRT-1モデルやVisual Cortex (VC-1)などの大規模な視覚データセットで事前学習されたモデルと比べて、一般化のパフォーマンスが向上しました（3倍以上の改善）。

出現スキル評価の成功率：私たちのRT-2モデルは以前のロボットトランスフォーマー（RT-1）および視覚事前学習（VC-1）のベースラインを上回っています。

また、ロボットデータで元のRT-1タスクから開始し、ロボットがVLMの事前学習から一般化を学ぶ必要のある以前に見たことのないオブジェクト、背景、環境の程度を変えながら、一連の定量評価も行いました。

ロボットが以前に見たことのない環境の例であり、RT-2が新しい状況に一般化する。

RT-2はロボットデータでの元のタスクのパフォーマンスを維持し、以前のRT-1の32%から62%に改善し、大規模な事前学習の利点を示しました。

さらに、ビジュアルのみのタスクで事前学習されたVC-1やロボット操作のための再利用可能な表現（R3M）などのベースライン、およびオブジェクトの識別にVLMを使用するアルゴリズムであるオープンワールドオブジェクトの操作（MOO）に対しても、大幅な改善が見られました。

RT-2は見られるインディストリビューションのタスクで高いパフォーマンスを達成し、見られないアウトオブディストリビューションのタスクで複数のベースラインを上回ります。

オープンソースのLanguage Table suiteのロボットタスクでモデルを評価した結果、シミュレーションでは90%の成功率を達成し、以前のベースラインであるBC-Z（72%）、RT-1（74%）、およびLAVA（77%）よりも大幅に改善しました。

次に、同じモデルを実世界で評価しました（シミュレーションと実データでトレーニングされたため）、以下に示すように、青いキューブ以外のオブジェクトはトレーニングデータセットに存在しませんでしたが、新しいオブジェクトに一般化する能力を示しました。

RT-2は実際のロボットの言語テーブルのタスクで優れたパフォーマンスを発揮します。青いキューブ以外のオブジェクトはトレーニングデータには存在しませんでした。

言語モデルにおける連鎖思考のプロンプティング手法に触発されて、私たちはロボット制御と連鎖思考の推論を組み合わせて、単一のモデル内で長期計画と低レベルのスキルの学習を可能にしました。

具体的には、RT-2の変種を微調整して、数百回の勾配ステップだけでその言語とアクションを共同で使用する能力を向上させました。そして、データを追加して、「Plan」という追加のステップを含めました。最初にロボットが自然言語で行うアクションの目的を説明し、「Action」とアクショントークンが続きます。以下にそのような推論とロボットの結果の行動の例を示します：

連鎖思考の推論により、長期スキルシーケンスの計画とロボットのアクションの予測を両方行う自己完結型モデルの学習が可能になります。

このプロセスにより、RT-2はユーザーの指示を達成するために必要な中間のステップについての推論を行う必要があるより複雑な命令を実行できます。VLMのバックボーンのおかげで、RT-2は画像とテキストの両方のコマンドから計画を立てることができ、現在のような計画とアクションを行う手法（SayCanなど）では実世界を見ることができず、完全に言語に依存しています。

ロボット制御の進化

RT-2は、ビジョン言語モデル（VLM）をパワフルなビジョン言語アクション（VLA）モデルに変換できることを示しています。これにより、VLMの事前トレーニングとロボットデータを組み合わせて直接ロボットを制御することができます。

PaLM-EとPaLI-Xに基づくVLAsの2つの具体例により、RT-2は非常に改善されたロボットポリシーを実現し、さらに重要なことに、ウェブスケールのビジョン言語事前トレーニングから引き継がれる大幅に向上した汎化性能と新たな能力をもたらします。

RT-2は既存のVLMモデルに対する単純かつ効果的な改良だけでなく、現実世界でさまざまなタスクを実行するための推論、問題解決、情報の解釈を行うことのできる汎用の物理ロボットの構築の可能性を示しています。

‍

論文を読む：https://robotics-transformer2.github.io/assets/rt2.pdf

キーワードで詳細を学ぶ：https://blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

research

Was this article helpful?

93 out of 132 found this helpful

RT-2 新しいモデルは、ビジョンと言語をアクションに変換します

ロボット制御のためのVLMの適応

一般化と出現スキル

ロボット制御の進化

Was this article helpful?

「2023年の最高の人工知能AIベースのアート生成器」

スタビリティAIのスタブルディフュージョンXL 1.0：AI画像生成の画期的なブレークスルー

AI研究

「S4 HANAとDomoでSQLを使用してデータ分析を超高速化する：機械学習の視点から」

UCSDの研究者が、チューリングテストでのGPT-4のパフォーマンスを評価：人間のような欺瞞とコミュニケーション戦略のダイナミクスを明らかにする

「機械学習におけるモデルの解釈性においてSHAP値の使用」

「DeepSeek：中国最新の言語モデルの支配」

Google DeepMindの研究者がDiLoCoを導入：効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム

デジタルアーティストのスティーブン・タンが、今週の「NVIDIA Studio」でソフィッシュティケイテッドなスタイルを披露します