多種多様なロボットタイプ間での学習のスケーリングアップ

ロボットタイプ間の学習のスケーリングアップ 多様な可能性を追求する

私たちは33の学術研究所のパートナーと協力し、22種類の異なるロボットタイプからデータを集約して、Open X-EmbodimentデータセットとRT-Xモデルを作成しました。

ロボットは得意な分野はあるものの、一般的なスキルを持つことはできません。通常、各タスク、ロボット、環境ごとにモデルを訓練する必要があります。一つの変数を変更するだけでもゼロから始める必要があります。しかし、もしロボットテクノロジー全体の知識を結集して、汎用ロボットを訓練する方法を作り出すことができたらどうでしょうか?今日、私たちは異なるロボットタイプまたは具現化形態を対象とした一般的なロボティクス学習のための新しいリソースセットを発表します。私たちは33の学術研究所のパートナーと協力し、22種類の異なるロボットタイプからデータを集約して、Open X-Embodimentデータセットを作成しました。また、私たちのデータセットで訓練されたRT-1に由来するロボティクス・トランスフォーマー(RT)モデルであるRT-1-Xもリリースします。このモデルは多くのロボット具現化形態間でのスキルの転送を示しています。

この研究では、複数の具現化形態に関するデータで単一のモデルを訓練することによって、個別の具現化形態のデータで訓練されたモデルと比べて、多くのロボットに対して明らかに優れたパフォーマンスを発揮することを示しています。私たちはRT-1-Xモデルを5つの異なる研究所でテストし、個別に開発され、各ロボットに特化した手法と比べて、5つのさまざまな一般的に使用されるロボットにおいて平均50%の成功率向上を実証しました。また、複数の具現化形態からのデータで私たちのビジュアル言語アクションモデルであるRT-2を訓練することにより、現実のロボティクススキルにおいてそのパフォーマンスが3倍に向上することも示しました。

私たちはこれらのツールを共同で進展するために、ロボティクスコミュニティに提供しています。Open X-EmbodimentデータセットとRT-1-Xモデルのチェックポイントは、共有データの収集とモデルの評価に協力してくれた世界中のロボティクス研究所のおかげで、広範な研究コミュニティの利益のために今利用可能です。私たちはこれらのツールがロボットの訓練方法を変革し、この研究分野を加速させると信じています。

Open X-Embodimentデータセット:AIロボットの訓練データの収集

データセットおよびそれに訓練されたモデルは、AIの進歩において重要な役割を果たしてきました。ImageNetがコンピュータビジョン研究を推進したように、私たちはOpen X-Embodimentがロボティクスの進歩に同じような役割を果たすと考えています。多様なロボットのデモンストレーションデータセットを構築することは、多種多様なタイプのロボットを制御し、さまざまな指示に従い、複雑なタスクについての基本的な推論を行い、効果的に汎用化するための鍵となるステップです。ただし、このようなデータセットを集めるには、一つの研究所では負担が大きすぎます。

Open X-Embodimentデータセットを開発するために、私たちは20以上の機関で協力して、22のロボット具現化形態からデータを収集しました。これにより、150,000以上のタスクを含む500以上のスキルを紹介し、100万エピソード以上をカバーする最も包括的なロボティクスデータセットが作成されました。

Open X-Embodimentデータセットのサンプル。500以上のスキルと150,000以上のタスクを示しています。
Open X-Embodimentデータセットは具現化形態、データセット、スキルを組み合わせたデータを組み合わせています。

RT-X: 一般的なロボットモデル

RT-Xは、当社のロボット変換モデルの2つを基にしています。私たちは、大規模な現実世界のロボット制御用モデルであるRT-1を使用してRT-1-Xを訓練し、ウェブとロボットデータの両方から学習するビジョン言語アクション(VLA)モデルであるRT-2でRT-2-Xを訓練しました。これにより、同じモデルアーキテクチャを持つRT-1-XとRT-2-Xは、訓練されたより多様なクロスエンボディメントデータのおかげで、より高いパフォーマンスを実現できることを示しています。また、特定のドメインで訓練されたモデルに比べて改善されており、より良い汎化性能と新しい機能を備えています。 RT-1-Xをパートナーの学術大学で評価するために、対応するデータセット上のドアを開くなどの特定のタスクに開発されたモデルと比較しました。オープンXエンボディメントデータセットで訓練されたRT-1-Xは、平均してオリジナルモデルよりも50%高いパフォーマンスを発揮しました。

RT-1-Xの平均成功率は対応するオリジナル手法よりも50%高いです。
異なるパートナー大学で実行されたRT-1-Xの評価のビデオ

RT-Xの新興スキル

他のロボット間での知識の転移を調査するために、助手ロボットとの実験を行いました。これには、RT-2データセットには存在しないオブジェクトやスキルが別のロボットのための別のデータセットに存在するタスクが含まれます。具体的には、RT-2-Xは新興スキルにおいて、以前の最良モデルであるRT-2の3倍の成功率であったことがわかりました。

私たちの結果は、他のプラットフォームのデータと共同訓練することで、オリジナルのデータセットに存在しなかった追加のスキルをRT-2-Xに付与し、新しいタスクを実行できるようにすることを示唆しています。

RT-2-Xはオブジェクト間の空間関係を理解しています。

RT-2-Xは、以前のRT-2モデルでは不可能であった空間的理解などのスキルを示しています。例えば、「リンゴを布の近くに移動する」という指示では、「リンゴを布の上に移動する」という指示とは非常に異なる軌跡が生成されます。前置詞を「近く」から「上に」に変更することで、ロボットが行うアクションを変化させることができます。

RT-2-Xは、既に大量のデータが利用可能なロボットでも、十分な高容量のアーキテクチャを利用する場合にのみ、他のロボットからのデータを組み合わせて訓練することで実行可能なタスクの範囲を改善することを示しています。

RT-2-X(55B):学術研究室で実施された未知のタスクを実行する、これまでで最も大きなモデルの一つ

責任を持ってロボット工学研究を進める

ロボット工学研究は、興味深いが初期の段階にあります。新たな研究により、より多様なデータやより良いモデルを使用して学習を拡大することで、より有用なヘルパーロボットを開発する可能性が示されています。世界中の研究所と協力し、リソースを共有することは、ロボット工学研究をオープンかつ責任ある方法で進めるために不可欠です。私たちは、データのオープンソース化と安全であるが限定されたモデルの提供により、障壁を減らし、研究を加速することを望んでいます。ロボットがお互いから学び、さらに重要なのは、研究者がお互いから学ぶことができるようにすることで、ロボットの未来は成り立っています。

この研究では、Google DeepMindのロボットだけでなく、世界中の異なる大学のロボットでも、具体的な体現を超えた一般化モデルが可能であり、その性能は劇的に向上しています。将来の研究では、RoboCatの自己改善特性とこれらの進歩を組み合わせ、モデルが自身の経験を通じて改善する方法を探求することができるでしょう。また、異なるデータセットの組み合わせが体現を超えた一般化にどのように影響するか、および改善された一般化がどのように具現化されるかについて、さらなる調査を行う方向性も考えられます。

私たちの論文を読む: https://robotics-transformer-x.github.io/paper.pdf

データとモデルにアクセスする: https://robotics-transformer-x.github.io/

私たちと連携する: [email protected]

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

このAI論文では、エッジコンピュータ上でも高品質な再構築とリアルタイム性能を実現するためのNeRFベースのマッピング手法が提案されています

この論文では、研究者たちはH2-Mappingと呼ばれるNeRFベースのマッピング手法を紹介しました。この手法は、ロボティクス、AR ...

データサイエンス

「Google Bard vs. ChatGPT ビジネスにおいてどちらのツールが優れているのか?」

「Google Bard」と「ChatGPT」を比較し、強みと弱点を見直して、成功のための完璧なAIツールであるビジネス戦略を向上させる...

データサイエンス

「トランスフォーマーはNFLプレーを生成できます:QB-GPTの紹介」

初めて「ストラトフォーマー」についての記事を書いて以来、多くのフィードバックとアイデアをいただいている(まず、ありが...

機械学習

Google Gemini APIを使用してLLMモデルを構築する

導入 ChatGPTとOpenAIのGPTモデルのリリース、およびMicrosoftとのパートナーシップにより、AIの領域にTransformerモデルをも...

機械学習

AIの物体認識をどのように進化させることができるのか? このAIの論文は、強化された画像と動画の分析のための普遍的な物体レベルの基礎モデルGLEEを紹介します

画像やビデオの物体認識は、機械に視覚世界を解読する力を与えます。仮想の探偵のように、コンピュータビジョンシステムはピ...

機械学習

LangChain 101 パート1. シンプルなQ&Aアプリの構築

LangChainは、テキストを生成し、質問に答え、言語を翻訳し、その他多くのテキスト関連の作業を行うアプリケーションを作成す...