ロボキャット:自己改善型ロボティックエージェント

RoboCat Self-improving Robotic Agent.

新しい基盤エージェントは、異なるロボットアームを操作し、わずか100回のデモンストレーションからタスクを解決し、自己生成データから改善します。

ロボットは私たちの日常生活の一部となりつつありますが、しばしば特定のタスクをうまく実行するようにプログラムされるだけです。最近のAIの進歩を活用すれば、さまざまな方法で助けてくれるロボットが実現できるかもしれませんが、一般的な用途のロボットの開発は時間がかかるため、進展が遅れています。

私たちの最新の論文では、自己改善型のAIエージェントであるRoboCatを紹介しています。RoboCatは、さまざまなアームでさまざまなタスクを実行する方法を学び、その技術を改善するための新しいトレーニングデータを自己生成します。

以前の研究では、大規模なタスクをマルチタスクで学習し、言語モデルの理解力とヘルパーロボットの現実世界の能力を組み合わせたロボットの開発方法が探求されてきました。RoboCatは、複数のタスクを解決し適応する最初のエージェントであり、それを異なる実際のロボットで行います。

RoboCatは、他の最先端のモデルよりもはるかに高速に学習します。大規模かつ多様なデータセットを活用しているため、わずか100回のデモンストレーションでも新しいタスクを習得することができます。この能力は、ロボット工学の研究を加速するのに役立ちます。人間による監視型のトレーニングの必要性を減らし、汎用的なロボットの創造に向けた重要な一歩です。

RoboCatが自己改善する方法

RoboCatは、私たちのマルチモーダルモデルであるGato(「猫」のスペイン語)に基づいています。Gatoは言語、画像、アクションをシミュレーションおよび物理環境の両方で処理できます。私たちは、さまざまなロボットアームが数百の異なるタスクを解決するための画像とアクションのシーケンスの大規模なトレーニングデータセットとGatoのアーキテクチャを組み合わせました。

この最初のトレーニングの後、私たちはRoboCatを「自己改善」トレーニングサイクルに投入し、以前に見たことのないタスクのセットで学習させました。新しいタスクの学習は、以下の5つのステップに従って行われます:

  1. 人間が制御するロボットアームを使用して、新しいタスクまたはロボットの100〜1000回のデモンストレーションを収集します。
  2. この新しいタスク/アームでRoboCatを微調整し、専門化された分岐エージェントを作成します。
  3. 分岐エージェントは、この新しいタスク/アームで平均約10,000回のトレーニングを行い、さらなるトレーニングデータを生成します。
  4. デモンストレーションデータと自己生成データをRoboCatの既存のトレーニングデータセットに組み込みます。
  5. 新しいトレーニングデータセットでRoboCatの新バージョンをトレーニングします。
RoboCatは、自己生成された追加のトレーニングデータを自律的に生成する能力によって強化されたトレーニングサイクルを持っています。

すべてのトレーニングの組み合わせにより、最新のRoboCatは、実際のロボットアームとシミュレートされたロボットアームの両方を含む、数百万の軌跡のデータセットに基づいています。私たちは、さまざまなタイプのロボットと多くのロボットアームを使用して、RoboCatが実行することがトレーニングされるタスクを表すビジョンベースのデータを収集しました。

RoboCatは、さまざまなトレーニングデータタイプとタスクから学習します:実際のロボットアームがギアをつかむ映像、シミュレートされたアームがブロックを積み上げる映像、RoboCatがキュウリをつかむためにロボットアームを使用する映像。

新しいロボットアームを操作し、より複雑なタスクを解決することの学習

RoboCatは多様なトレーニングを通じて、わずか数時間で異なるロボットアームの操作を学びました。2本爪のグリッパーを持つアームで訓練されていたにもかかわらず、3本指のグリッパーと制御可能な入力の数が2倍になるようなより複雑なアームにも適応することができました。

左:RoboCatが制御を学んだ新しいロボットアーム ‍ 右:RoboCatが歯車を拾うためにアームを使用しているビデオ

わずか数時間で収集された1000の人間によるデモンストレーションを観察した後、RoboCatはこの新しいアームを器用に操作し、歯車を86%の成功率で成功裏に拾うことができました。同じレベルのデモンストレーションで、RoboCatはより複雑な制御に必要な、ボウルから正しい果物を取り出したり、形に合わせるパズルを解いたりするなど、精度と理解を組み合わせたタスクを解決するために適応することができました。

500-1000のデモンストレーション後にRoboCatが適応できるタスクの例。

自己改善型の汎用ロボット

RoboCatはトレーニングの良い循環を持っています:新しいタスクを学ぶほど、追加の新しいタスクを学ぶ能力が向上します。最初のバージョンのRoboCatは、タスクごとに500のデモンストレーションから学んだ後、以前に見たことのないタスクで36%の成功率で成功しました。しかし、さまざまなタスクにトレーニングされた最新のRoboCatは、同じタスクにおいてこの成功率を倍増させました。

最初のRoboCat(1回のトレーニング)と最終バージョン(幅広く多様なトレーニング、自己改善を含む)のパフォーマンスの大きな違い。両バージョンが以前に見たことのないタスクの500のデモンストレーションで微調整された後。

これらの改善は、RoboCatの経験の幅広さによるものであり、人々が特定の領域で学習を深めるにつれて、より多様なスキルを身につけるように似ています。ロボCatのスキルを独立して学び、迅速に自己改善する能力は、特に異なるロボットデバイスに適用された場合、より便利で汎用性のあるロボットエージェントの新世代への道を開くのに役立ちます。

arXivで私たちの論文を読む:https://arxiv.org/abs/2306.11706

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「クロスブラウザテストが適切に実施されない場合、何が起こるか」

クロスブラウザーテストはWeb開発の重要な一部ですが、しばしば適切な注目を受けません十分なクロスブラウザーテストを行わな...

AIテクノロジー

「2023年に注目すべきマーケティングトレンドのトップAI」

「AIの進化は続き、次の10年間においてそれがマーケティングにどのように影響を与えるかは予測が困難です」

AIテクノロジー

人事革命:AIが人材管理を変革する方法

人事管理と人材管理に人工知能がどのように革新をもたらしているのか、さまざまな方法を調査してください人工知能が戦略的な...

AIテクノロジー

小売業の革新:AIが顧客体験、在庫管理、マーケティングに与える影響

人工知能が小売業界に革命を起こし、マーケティング戦略を向上させ、在庫管理を効率化し、顧客の体験を向上させている方法を...

機械学習

「私たちはAIとの関係をどのように予測できるのか?」

現在の段階やAGIの後の人間とAIの相互作用は常に議論の的です次の否定的な側面にいるのか、立場をとっているのかに関わらず、...

AIテクノロジー

「将来的にAIが医療請求の補完をどのように行うのか?」

私たちの急速に発展するデジタル時代において、医療部門は変化においては馴染みがありません革新的な技術の影響を受けて、伝...