Google DeepMindの研究者たちは、RT-2という新しいビジョン・言語・行動(VLA)モデルを紹介しましたこのモデルは、ウェブデータとロボットデータの両方から学習し、それを行動に変えます

Google DeepMindの研究者は、RT-2という新しいVLAモデルを紹介しましたこのモデルは、ウェブデータとロボットデータの両方から学習し、行動に反映します

大規模な言語モデルは、流暢なテキスト生成、新たな問題解決、文章やコードの創造的な生成を可能にします。対照的に、ビジョン・ランゲージモデルは、開放的な語彙の視覚的認識を可能にし、画像中のオブジェクト-エージェントの相互作用について複雑な推論さえ行うことができます。ロボットが新しいスキルを学ぶ最適な方法は明確にする必要があります。ウェブ上で最も高度な言語モデルとビジョン・ランゲージモデルを訓練するために使用される数十億のトークンと写真に比べて、ロボットから収集されるデータ量は同等ではないでしょう。しかし、これらのモデルを即座にロボットの活動に適応することも困難です。なぜなら、これらのモデルは意味、ラベル、およびテキストのプロンプトについて推論を行う一方、ロボットはカルテシアンエンドエフェクタを使用したなどの低レベルのアクションを指示される必要があります。

Google DeepMindの研究は、ビジョン・ランゲージモデルを直接エンドツーエンドのロボット制御に組み込むことで一般化を改善し、新たな意味論的推論を可能にすることを目指しています。ウェブベースの言語データとビジョン・ランゲージデータの助けを借りて、ロボットの観測結果をアクションにリンクするために一つの包括的に訓練されたモデルを作成することを目指しています。彼らはロボットの軌跡データとインターネット上で行われる大規模な視覚的な質問応答演習のデータを使用して、最先端のビジョン・ランゲージモデルを共同でファインチューニングすることを提案しています。他の手法とは異なり、彼らは簡単で汎用的な手法を提案しています。つまり、ロボットのアクションをテキストトークンとして表現し、それらを自然言語トークンとしてモデルの訓練セットに直接組み込むことです。研究者はビジョン・ランゲージ・アクションモデル(VLA)を研究し、RT-2はそのようなモデルの一つです。厳格なテスト(6,000回の評価試行)を通じて、RT-2がインターネットスケールの訓練によってさまざまな新たなスキルを獲得し、パフォーマンスの高いロボットポリシーを実現することが分かりました。

Google DeepMindは、ロボットの操作を直接実行できるウェブソースのテキストと画像で訓練されたTransformerベースのモデルであるRT-2を公開しました。これは、Robotics Transformerモデル1の後継として開発されました。ロボットのアクションをテキストトークンとして表現し、オンラインで利用可能な大規模なビジョン・ランゲージデータセットと一緒に教えることができます。推論では、テキストトークンをロボットの振る舞いに変換し、フィードバックループを介して制御することができます。これにより、ビジョン・ランゲージモデルの一般化、意味理解、推論の一部をロボットポリシーの学習に活用することができます。プロジェクトのウェブサイト(https://robotics-transformer2.github.io/)では、RT-2の使用例のライブデモンストレーションを提供しています。

このモデルは、ロボットデータで見つかる分布に一致する方法で物理的なスキルを展開する能力を保持しています。しかし、ウェブから収集された知識を使用して、新しい文脈でこれらのスキルを使用することも学習します。ロボットデータには正確な数値やアイコンなどの意味的な手がかりは含まれていませんが、このモデルは学習したピックアンドプレイスのスキルを再利用することができます。ロボットデモではそのような関係は提供されませんでしたが、このモデルは正しいオブジェクトを選び、正しい位置に配置することができました。さらに、コマンドに思考プロンプトのようなチェーンを補完することで、モデルはより複雑な意味的な推論を行うこともできます。例えば、岩が自作のハンマーの最良の選択肢であることや、疲れている人にとってエナジードリンクが最良の選択肢であることを知っている場合です。

Google DeepMindの主な貢献は、ロボットデータを使用して前処理されたビジョン・ランゲージモデルをファインチューニングすることで、一般化が可能で意味論的に意識したロボットルールとなるモデル群であるRT-2です。55兆のパラメータを持つモデルを公開データから学習し、ロボットの動作コマンドで注釈付けされました。6,000回のロボット評価を通じて、RT-2はオブジェクト、シーン、および命令の一般化においてかなりの進歩を実証し、ウェブスケールのビジョン・ランゲージプリトレーニングの副産物としてさまざまな新たな能力を示すことを示しました。

主な特徴

  • RT-2の推論、シンボルの解釈、人間の識別能力は、さまざまな実用的なシナリオで活用することができます。
  • RT-2の結果は、ロボットデータを使用してVLMを事前学習することで、ロボットを直接制御できる強力なビジョン・ランゲージ・アクション(VLA)モデルに変えることができることを示しています。
  • RT-2のように、現実世界で様々な活動を完了するための情報の解釈や問題解決、思考能力を持つ汎用的な物理ロボットを構築するための有望な方向性です。
  • RT-2は、言語とビジュアルのトレーニングデータからロボットの動きへの情報の移行を処理する能力と効率性を持っています。

制約事項

RT-2は一般化の性質が励ましいものの、いくつかの欠点があります。ウェブスケールの事前学習をVLMを通じて組み込むことが、意味的および視覚的な概念の一般化を改善するという研究結果もあるものの、これによってロボットが動作を行う能力に新たな能力が付与されるわけではありません。モデルは、ロボットデータで見つかった物理的な能力のみを新しい方法で使用することができますが、それらの能力をより良く活用することを学習します。これは、競争力の次元でサンプルの多様性が必要であるとされます。人間の映像などの新しいデータ収集パラダイムは、新しいスキルを獲得するための将来的な研究の興味深い機会となります。

まとめると、Google DeepMindの研究者は、大規模なVLAモデルをリアルタイムで実行できることを示しましたが、これはかなりの計算負荷を要します。これらの手法が高頻度制御を必要とする状況に適用される際には、リアルタイム推論のリスクが重要なボトルネックとなります。このようなモデルがより速く、またはより安価なハードウェア上で動作できるようにする量子化および蒸留手法は、将来の研究の魅力的な領域です。また、RT-2の開発には比較的少数のVLMモデルしか利用できないという既存の制約も関連しています。

Google DeepMindの研究者は、ビジョン・ランゲージ・アクション(VLA)モデルのトレーニングプロセスを、事前学習とビジョン・ランゲージモデル(VLM)とロボットからのデータの統合によって要約しました。それから、VLAs(RT-2-PaLM-EおよびRT-2-PaLI-X)の2つのバリアントを紹介しました。これらのモデルは、ロボットの軌跡データで微調整され、テキストとしてトークン化されたロボットのアクションを生成します。さらに重要なことに、彼らはこの技術が一般化性能とウェブスケールのビジョン・ランゲージ事前学習から受け継がれた新しい能力を向上させることを示し、非常に効果的なロボットポリシーを導くと述べています。Google DeepMindによれば、ロボット学習の分野はこの簡単で普遍的な方法論によって他の分野の改善から戦略的に利益を得ることができるようになりました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more