ロボキャット：自己改善型ロボティックエージェント

RoboCat Self-improving Robotic Agent.

新しい基盤エージェントは、異なるロボットアームを操作し、わずか100回のデモンストレーションからタスクを解決し、自己生成データから改善します。

ロボットは私たちの日常生活の一部となりつつありますが、しばしば特定のタスクをうまく実行するようにプログラムされるだけです。最近のAIの進歩を活用すれば、さまざまな方法で助けてくれるロボットが実現できるかもしれませんが、一般的な用途のロボットの開発は時間がかかるため、進展が遅れています。

私たちの最新の論文では、自己改善型のAIエージェントであるRoboCatを紹介しています。RoboCatは、さまざまなアームでさまざまなタスクを実行する方法を学び、その技術を改善するための新しいトレーニングデータを自己生成します。

以前の研究では、大規模なタスクをマルチタスクで学習し、言語モデルの理解力とヘルパーロボットの現実世界の能力を組み合わせたロボットの開発方法が探求されてきました。RoboCatは、複数のタスクを解決し適応する最初のエージェントであり、それを異なる実際のロボットで行います。

RoboCatは、他の最先端のモデルよりもはるかに高速に学習します。大規模かつ多様なデータセットを活用しているため、わずか100回のデモンストレーションでも新しいタスクを習得することができます。この能力は、ロボット工学の研究を加速するのに役立ちます。人間による監視型のトレーニングの必要性を減らし、汎用的なロボットの創造に向けた重要な一歩です。

RoboCatが自己改善する方法

RoboCatは、私たちのマルチモーダルモデルであるGato（「猫」のスペイン語）に基づいています。Gatoは言語、画像、アクションをシミュレーションおよび物理環境の両方で処理できます。私たちは、さまざまなロボットアームが数百の異なるタスクを解決するための画像とアクションのシーケンスの大規模なトレーニングデータセットとGatoのアーキテクチャを組み合わせました。

この最初のトレーニングの後、私たちはRoboCatを「自己改善」トレーニングサイクルに投入し、以前に見たことのないタスクのセットで学習させました。新しいタスクの学習は、以下の5つのステップに従って行われます：

人間が制御するロボットアームを使用して、新しいタスクまたはロボットの100〜1000回のデモンストレーションを収集します。
この新しいタスク/アームでRoboCatを微調整し、専門化された分岐エージェントを作成します。
分岐エージェントは、この新しいタスク/アームで平均約10,000回のトレーニングを行い、さらなるトレーニングデータを生成します。
デモンストレーションデータと自己生成データをRoboCatの既存のトレーニングデータセットに組み込みます。
新しいトレーニングデータセットでRoboCatの新バージョンをトレーニングします。

RoboCatは、自己生成された追加のトレーニングデータを自律的に生成する能力によって強化されたトレーニングサイクルを持っています。

すべてのトレーニングの組み合わせにより、最新のRoboCatは、実際のロボットアームとシミュレートされたロボットアームの両方を含む、数百万の軌跡のデータセットに基づいています。私たちは、さまざまなタイプのロボットと多くのロボットアームを使用して、RoboCatが実行することがトレーニングされるタスクを表すビジョンベースのデータを収集しました。

RoboCatは、さまざまなトレーニングデータタイプとタスクから学習します：実際のロボットアームがギアをつかむ映像、シミュレートされたアームがブロックを積み上げる映像、RoboCatがキュウリをつかむためにロボットアームを使用する映像。

新しいロボットアームを操作し、より複雑なタスクを解決することの学習

RoboCatは多様なトレーニングを通じて、わずか数時間で異なるロボットアームの操作を学びました。2本爪のグリッパーを持つアームで訓練されていたにもかかわらず、3本指のグリッパーと制御可能な入力の数が2倍になるようなより複雑なアームにも適応することができました。

左：RoboCatが制御を学んだ新しいロボットアーム ‍ 右：RoboCatが歯車を拾うためにアームを使用しているビデオ — 左: RoboCatが制御を学んだ新しいロボットアーム ‍ 右: RoboCatがアームを使用して歯車を拾うビデオ

わずか数時間で収集された1000の人間によるデモンストレーションを観察した後、RoboCatはこの新しいアームを器用に操作し、歯車を86%の成功率で成功裏に拾うことができました。同じレベルのデモンストレーションで、RoboCatはより複雑な制御に必要な、ボウルから正しい果物を取り出したり、形に合わせるパズルを解いたりするなど、精度と理解を組み合わせたタスクを解決するために適応することができました。

500-1000のデモンストレーション後にRoboCatが適応できるタスクの例。

自己改善型の汎用ロボット

RoboCatはトレーニングの良い循環を持っています：新しいタスクを学ぶほど、追加の新しいタスクを学ぶ能力が向上します。最初のバージョンのRoboCatは、タスクごとに500のデモンストレーションから学んだ後、以前に見たことのないタスクで36%の成功率で成功しました。しかし、さまざまなタスクにトレーニングされた最新のRoboCatは、同じタスクにおいてこの成功率を倍増させました。

最初のRoboCat（1回のトレーニング）と最終バージョン（幅広く多様なトレーニング、自己改善を含む）のパフォーマンスの大きな違い。両バージョンが以前に見たことのないタスクの500のデモンストレーションで微調整された後。

これらの改善は、RoboCatの経験の幅広さによるものであり、人々が特定の領域で学習を深めるにつれて、より多様なスキルを身につけるように似ています。ロボCatのスキルを独立して学び、迅速に自己改善する能力は、特に異なるロボットデバイスに適用された場合、より便利で汎用性のあるロボットエージェントの新世代への道を開くのに役立ちます。

arXivで私たちの論文を読む：https://arxiv.org/abs/2306.11706

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

ロボキャット：自己改善型ロボティックエージェント

RoboCatが自己改善する方法

新しいロボットアームを操作し、より複雑なタスクを解決することの学習

自己改善型の汎用ロボット

Was this article helpful?

DragonDiffusionをご紹介します：拡散モデルでのドラッグスタイル操作を可能にする細かい画像編集手法

より一般化されたAIツールを使用してコンピュータシステムを最適化する

AIテクノロジー

インターネット上のトップ8逆電話検索ツール

「GPTの進化を探る ChatGPT-4の新機能と、コンバーショナルAIの再定義」

「クロスブラウザテストが適切に実施されない場合、何が起こるか」

Insightly マーケティングの価格、プラン、およびメリットに関する完全ガイド

魅力的な方法：AIが人々がドイツ語や他の言語をマスターするのを助ける方法

世界のトップ10量子コンピューティング企業（2024年）