多種多様なロボットタイプ間での学習のスケーリングアップ
ロボットタイプ間の学習のスケーリングアップ 多様な可能性を追求する
私たちは33の学術研究所のパートナーと協力し、22種類の異なるロボットタイプからデータを集約して、Open X-EmbodimentデータセットとRT-Xモデルを作成しました。
ロボットは得意な分野はあるものの、一般的なスキルを持つことはできません。通常、各タスク、ロボット、環境ごとにモデルを訓練する必要があります。一つの変数を変更するだけでもゼロから始める必要があります。しかし、もしロボットテクノロジー全体の知識を結集して、汎用ロボットを訓練する方法を作り出すことができたらどうでしょうか?今日、私たちは異なるロボットタイプまたは具現化形態を対象とした一般的なロボティクス学習のための新しいリソースセットを発表します。私たちは33の学術研究所のパートナーと協力し、22種類の異なるロボットタイプからデータを集約して、Open X-Embodimentデータセットを作成しました。また、私たちのデータセットで訓練されたRT-1に由来するロボティクス・トランスフォーマー(RT)モデルであるRT-1-Xもリリースします。このモデルは多くのロボット具現化形態間でのスキルの転送を示しています。
この研究では、複数の具現化形態に関するデータで単一のモデルを訓練することによって、個別の具現化形態のデータで訓練されたモデルと比べて、多くのロボットに対して明らかに優れたパフォーマンスを発揮することを示しています。私たちはRT-1-Xモデルを5つの異なる研究所でテストし、個別に開発され、各ロボットに特化した手法と比べて、5つのさまざまな一般的に使用されるロボットにおいて平均50%の成功率向上を実証しました。また、複数の具現化形態からのデータで私たちのビジュアル言語アクションモデルであるRT-2を訓練することにより、現実のロボティクススキルにおいてそのパフォーマンスが3倍に向上することも示しました。
私たちはこれらのツールを共同で進展するために、ロボティクスコミュニティに提供しています。Open X-EmbodimentデータセットとRT-1-Xモデルのチェックポイントは、共有データの収集とモデルの評価に協力してくれた世界中のロボティクス研究所のおかげで、広範な研究コミュニティの利益のために今利用可能です。私たちはこれらのツールがロボットの訓練方法を変革し、この研究分野を加速させると信じています。
- MITとCUHKの研究者たちは、LLM(Long Context Large Language Models)に対して効率的なファインチューニングAIアプローチであるLongLoRA(Long Low-Rank Adaptation)を提案しています
- 「読むべき創造的エージェント研究論文」
- 「このAppleのAI研究は、ジェンダーステレオタイプに関するLLMsの振る舞いの既知の問題を調査します」
Open X-Embodimentデータセット:AIロボットの訓練データの収集
データセットおよびそれに訓練されたモデルは、AIの進歩において重要な役割を果たしてきました。ImageNetがコンピュータビジョン研究を推進したように、私たちはOpen X-Embodimentがロボティクスの進歩に同じような役割を果たすと考えています。多様なロボットのデモンストレーションデータセットを構築することは、多種多様なタイプのロボットを制御し、さまざまな指示に従い、複雑なタスクについての基本的な推論を行い、効果的に汎用化するための鍵となるステップです。ただし、このようなデータセットを集めるには、一つの研究所では負担が大きすぎます。
Open X-Embodimentデータセットを開発するために、私たちは20以上の機関で協力して、22のロボット具現化形態からデータを収集しました。これにより、150,000以上のタスクを含む500以上のスキルを紹介し、100万エピソード以上をカバーする最も包括的なロボティクスデータセットが作成されました。
RT-X: 一般的なロボットモデル
RT-Xは、当社のロボット変換モデルの2つを基にしています。私たちは、大規模な現実世界のロボット制御用モデルであるRT-1を使用してRT-1-Xを訓練し、ウェブとロボットデータの両方から学習するビジョン言語アクション(VLA)モデルであるRT-2でRT-2-Xを訓練しました。これにより、同じモデルアーキテクチャを持つRT-1-XとRT-2-Xは、訓練されたより多様なクロスエンボディメントデータのおかげで、より高いパフォーマンスを実現できることを示しています。また、特定のドメインで訓練されたモデルに比べて改善されており、より良い汎化性能と新しい機能を備えています。 RT-1-Xをパートナーの学術大学で評価するために、対応するデータセット上のドアを開くなどの特定のタスクに開発されたモデルと比較しました。オープンXエンボディメントデータセットで訓練されたRT-1-Xは、平均してオリジナルモデルよりも50%高いパフォーマンスを発揮しました。
RT-Xの新興スキル
他のロボット間での知識の転移を調査するために、助手ロボットとの実験を行いました。これには、RT-2データセットには存在しないオブジェクトやスキルが別のロボットのための別のデータセットに存在するタスクが含まれます。具体的には、RT-2-Xは新興スキルにおいて、以前の最良モデルであるRT-2の3倍の成功率であったことがわかりました。
私たちの結果は、他のプラットフォームのデータと共同訓練することで、オリジナルのデータセットに存在しなかった追加のスキルをRT-2-Xに付与し、新しいタスクを実行できるようにすることを示唆しています。
RT-2-Xは、以前のRT-2モデルでは不可能であった空間的理解などのスキルを示しています。例えば、「リンゴを布の近くに移動する」という指示では、「リンゴを布の上に移動する」という指示とは非常に異なる軌跡が生成されます。前置詞を「近く」から「上に」に変更することで、ロボットが行うアクションを変化させることができます。
RT-2-Xは、既に大量のデータが利用可能なロボットでも、十分な高容量のアーキテクチャを利用する場合にのみ、他のロボットからのデータを組み合わせて訓練することで実行可能なタスクの範囲を改善することを示しています。
責任を持ってロボット工学研究を進める
ロボット工学研究は、興味深いが初期の段階にあります。新たな研究により、より多様なデータやより良いモデルを使用して学習を拡大することで、より有用なヘルパーロボットを開発する可能性が示されています。世界中の研究所と協力し、リソースを共有することは、ロボット工学研究をオープンかつ責任ある方法で進めるために不可欠です。私たちは、データのオープンソース化と安全であるが限定されたモデルの提供により、障壁を減らし、研究を加速することを望んでいます。ロボットがお互いから学び、さらに重要なのは、研究者がお互いから学ぶことができるようにすることで、ロボットの未来は成り立っています。
この研究では、Google DeepMindのロボットだけでなく、世界中の異なる大学のロボットでも、具体的な体現を超えた一般化モデルが可能であり、その性能は劇的に向上しています。将来の研究では、RoboCatの自己改善特性とこれらの進歩を組み合わせ、モデルが自身の経験を通じて改善する方法を探求することができるでしょう。また、異なるデータセットの組み合わせが体現を超えた一般化にどのように影響するか、および改善された一般化がどのように具現化されるかについて、さらなる調査を行う方向性も考えられます。
私たちの論文を読む: https://robotics-transformer-x.github.io/paper.pdf
データとモデルにアクセスする: https://robotics-transformer-x.github.io/
私たちと連携する: [email protected]
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ETHチューリッヒの研究者は、高速フィードフォワード(FFF)アーキテクチャを導入しましたこれは、そのニューロンのブロックに対して対数時間でアクセスするフィードフォワード(FF)アーキテクチャの仲間です
- 仕事を楽にすることができるトップ140以上の生成AIツール
- マイクロソフトとMITの研究者たちによる新しい方法、AIの幻覚を減らすことを目指して
- このAI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します
- マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました
- 「大規模な言語モデルがコンパイラ最適化のメタAI研究者を驚かせる!」
- 「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」