ロボキャット:自己改善型ロボティックエージェント
RoboCat Self-improving Robotic Agent.
新しい基盤エージェントは、異なるロボットアームを操作し、わずか100回のデモンストレーションからタスクを解決し、自己生成データから改善します。
ロボットは私たちの日常生活の一部となりつつありますが、しばしば特定のタスクをうまく実行するようにプログラムされるだけです。最近のAIの進歩を活用すれば、さまざまな方法で助けてくれるロボットが実現できるかもしれませんが、一般的な用途のロボットの開発は時間がかかるため、進展が遅れています。
私たちの最新の論文では、自己改善型のAIエージェントであるRoboCatを紹介しています。RoboCatは、さまざまなアームでさまざまなタスクを実行する方法を学び、その技術を改善するための新しいトレーニングデータを自己生成します。
以前の研究では、大規模なタスクをマルチタスクで学習し、言語モデルの理解力とヘルパーロボットの現実世界の能力を組み合わせたロボットの開発方法が探求されてきました。RoboCatは、複数のタスクを解決し適応する最初のエージェントであり、それを異なる実際のロボットで行います。
RoboCatは、他の最先端のモデルよりもはるかに高速に学習します。大規模かつ多様なデータセットを活用しているため、わずか100回のデモンストレーションでも新しいタスクを習得することができます。この能力は、ロボット工学の研究を加速するのに役立ちます。人間による監視型のトレーニングの必要性を減らし、汎用的なロボットの創造に向けた重要な一歩です。
RoboCatが自己改善する方法
RoboCatは、私たちのマルチモーダルモデルであるGato(「猫」のスペイン語)に基づいています。Gatoは言語、画像、アクションをシミュレーションおよび物理環境の両方で処理できます。私たちは、さまざまなロボットアームが数百の異なるタスクを解決するための画像とアクションのシーケンスの大規模なトレーニングデータセットとGatoのアーキテクチャを組み合わせました。
この最初のトレーニングの後、私たちはRoboCatを「自己改善」トレーニングサイクルに投入し、以前に見たことのないタスクのセットで学習させました。新しいタスクの学習は、以下の5つのステップに従って行われます:
- 人間が制御するロボットアームを使用して、新しいタスクまたはロボットの100〜1000回のデモンストレーションを収集します。
- この新しいタスク/アームでRoboCatを微調整し、専門化された分岐エージェントを作成します。
- 分岐エージェントは、この新しいタスク/アームで平均約10,000回のトレーニングを行い、さらなるトレーニングデータを生成します。
- デモンストレーションデータと自己生成データをRoboCatの既存のトレーニングデータセットに組み込みます。
- 新しいトレーニングデータセットでRoboCatの新バージョンをトレーニングします。
すべてのトレーニングの組み合わせにより、最新のRoboCatは、実際のロボットアームとシミュレートされたロボットアームの両方を含む、数百万の軌跡のデータセットに基づいています。私たちは、さまざまなタイプのロボットと多くのロボットアームを使用して、RoboCatが実行することがトレーニングされるタスクを表すビジョンベースのデータを収集しました。
新しいロボットアームを操作し、より複雑なタスクを解決することの学習
RoboCatは多様なトレーニングを通じて、わずか数時間で異なるロボットアームの操作を学びました。2本爪のグリッパーを持つアームで訓練されていたにもかかわらず、3本指のグリッパーと制御可能な入力の数が2倍になるようなより複雑なアームにも適応することができました。
わずか数時間で収集された1000の人間によるデモンストレーションを観察した後、RoboCatはこの新しいアームを器用に操作し、歯車を86%の成功率で成功裏に拾うことができました。同じレベルのデモンストレーションで、RoboCatはより複雑な制御に必要な、ボウルから正しい果物を取り出したり、形に合わせるパズルを解いたりするなど、精度と理解を組み合わせたタスクを解決するために適応することができました。
自己改善型の汎用ロボット
RoboCatはトレーニングの良い循環を持っています:新しいタスクを学ぶほど、追加の新しいタスクを学ぶ能力が向上します。最初のバージョンのRoboCatは、タスクごとに500のデモンストレーションから学んだ後、以前に見たことのないタスクで36%の成功率で成功しました。しかし、さまざまなタスクにトレーニングされた最新のRoboCatは、同じタスクにおいてこの成功率を倍増させました。
これらの改善は、RoboCatの経験の幅広さによるものであり、人々が特定の領域で学習を深めるにつれて、より多様なスキルを身につけるように似ています。ロボCatのスキルを独立して学び、迅速に自己改善する能力は、特に異なるロボットデバイスに適用された場合、より便利で汎用性のあるロボットエージェントの新世代への道を開くのに役立ちます。
arXivで私たちの論文を読む:https://arxiv.org/abs/2306.11706
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles