ロボキャット:自己改善型ロボティックエージェント

RoboCat Self-improving Robotic Agent.

新しい基盤エージェントは、異なるロボットアームを操作し、わずか100回のデモンストレーションからタスクを解決し、自己生成データから改善します。

ロボットは私たちの日常生活の一部となりつつありますが、しばしば特定のタスクをうまく実行するようにプログラムされるだけです。最近のAIの進歩を活用すれば、さまざまな方法で助けてくれるロボットが実現できるかもしれませんが、一般的な用途のロボットの開発は時間がかかるため、進展が遅れています。

私たちの最新の論文では、自己改善型のAIエージェントであるRoboCatを紹介しています。RoboCatは、さまざまなアームでさまざまなタスクを実行する方法を学び、その技術を改善するための新しいトレーニングデータを自己生成します。

以前の研究では、大規模なタスクをマルチタスクで学習し、言語モデルの理解力とヘルパーロボットの現実世界の能力を組み合わせたロボットの開発方法が探求されてきました。RoboCatは、複数のタスクを解決し適応する最初のエージェントであり、それを異なる実際のロボットで行います。

RoboCatは、他の最先端のモデルよりもはるかに高速に学習します。大規模かつ多様なデータセットを活用しているため、わずか100回のデモンストレーションでも新しいタスクを習得することができます。この能力は、ロボット工学の研究を加速するのに役立ちます。人間による監視型のトレーニングの必要性を減らし、汎用的なロボットの創造に向けた重要な一歩です。

RoboCatが自己改善する方法

RoboCatは、私たちのマルチモーダルモデルであるGato(「猫」のスペイン語)に基づいています。Gatoは言語、画像、アクションをシミュレーションおよび物理環境の両方で処理できます。私たちは、さまざまなロボットアームが数百の異なるタスクを解決するための画像とアクションのシーケンスの大規模なトレーニングデータセットとGatoのアーキテクチャを組み合わせました。

この最初のトレーニングの後、私たちはRoboCatを「自己改善」トレーニングサイクルに投入し、以前に見たことのないタスクのセットで学習させました。新しいタスクの学習は、以下の5つのステップに従って行われます:

  1. 人間が制御するロボットアームを使用して、新しいタスクまたはロボットの100〜1000回のデモンストレーションを収集します。
  2. この新しいタスク/アームでRoboCatを微調整し、専門化された分岐エージェントを作成します。
  3. 分岐エージェントは、この新しいタスク/アームで平均約10,000回のトレーニングを行い、さらなるトレーニングデータを生成します。
  4. デモンストレーションデータと自己生成データをRoboCatの既存のトレーニングデータセットに組み込みます。
  5. 新しいトレーニングデータセットでRoboCatの新バージョンをトレーニングします。
RoboCatは、自己生成された追加のトレーニングデータを自律的に生成する能力によって強化されたトレーニングサイクルを持っています。

すべてのトレーニングの組み合わせにより、最新のRoboCatは、実際のロボットアームとシミュレートされたロボットアームの両方を含む、数百万の軌跡のデータセットに基づいています。私たちは、さまざまなタイプのロボットと多くのロボットアームを使用して、RoboCatが実行することがトレーニングされるタスクを表すビジョンベースのデータを収集しました。

RoboCatは、さまざまなトレーニングデータタイプとタスクから学習します:実際のロボットアームがギアをつかむ映像、シミュレートされたアームがブロックを積み上げる映像、RoboCatがキュウリをつかむためにロボットアームを使用する映像。

新しいロボットアームを操作し、より複雑なタスクを解決することの学習

RoboCatは多様なトレーニングを通じて、わずか数時間で異なるロボットアームの操作を学びました。2本爪のグリッパーを持つアームで訓練されていたにもかかわらず、3本指のグリッパーと制御可能な入力の数が2倍になるようなより複雑なアームにも適応することができました。

左:RoboCatが制御を学んだ新しいロボットアーム ‍ 右:RoboCatが歯車を拾うためにアームを使用しているビデオ

わずか数時間で収集された1000の人間によるデモンストレーションを観察した後、RoboCatはこの新しいアームを器用に操作し、歯車を86%の成功率で成功裏に拾うことができました。同じレベルのデモンストレーションで、RoboCatはより複雑な制御に必要な、ボウルから正しい果物を取り出したり、形に合わせるパズルを解いたりするなど、精度と理解を組み合わせたタスクを解決するために適応することができました。

500-1000のデモンストレーション後にRoboCatが適応できるタスクの例。

自己改善型の汎用ロボット

RoboCatはトレーニングの良い循環を持っています:新しいタスクを学ぶほど、追加の新しいタスクを学ぶ能力が向上します。最初のバージョンのRoboCatは、タスクごとに500のデモンストレーションから学んだ後、以前に見たことのないタスクで36%の成功率で成功しました。しかし、さまざまなタスクにトレーニングされた最新のRoboCatは、同じタスクにおいてこの成功率を倍増させました。

最初のRoboCat(1回のトレーニング)と最終バージョン(幅広く多様なトレーニング、自己改善を含む)のパフォーマンスの大きな違い。両バージョンが以前に見たことのないタスクの500のデモンストレーションで微調整された後。

これらの改善は、RoboCatの経験の幅広さによるものであり、人々が特定の領域で学習を深めるにつれて、より多様なスキルを身につけるように似ています。ロボCatのスキルを独立して学び、迅速に自己改善する能力は、特に異なるロボットデバイスに適用された場合、より便利で汎用性のあるロボットエージェントの新世代への道を開くのに役立ちます。

arXivで私たちの論文を読む:https://arxiv.org/abs/2306.11706

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

勝利チームの構築:従業員のエンゲージメントとビジネスパフォーマンスの関連性

従業員のエンゲージメントがビジネスパフォーマンスに直接影響する方法を発見してください勝利を収めるチームを構築し、組織...

AIテクノロジー

マーケティングキャンペーンを改善する革新的なテクノロジートレンド

最新のマーケティング技術のトレンドを学び、それらがより良い結果をもたらす方法を学びましょうマーケティングキャンペーン...

AIテクノロジー

Insightly マーケティングの価格、プラン、およびメリットに関する完全ガイド

マーケティングに関しては、現在市場には数多くのツールがありますしかし、それら全てが同じ能力と利点を持っているわけでは...

AIニュース

2023年の最高のサイバーセキュリティニュースレター

サイバーセキュリティのニュースレターは、幅広いトピックをカバーし、さまざまな読者のニーズに対応していますこの分野で先...

AIテクノロジー

「医師がAIを活用して診療を変革する方法」

このデジタル時代では、人工知能(AI)や新しい技術が医療を含む多くの分野で革命を起こしています特に医師にとって、これら...

データサイエンス

エネルギーフォレンジックスにおける高度なAIアルゴリズムの開発:消費パターンを通じたスマートグリッド盗難検出のためのTransformerモデルのPythonガイド

ドイツのエネルギーデータからの洞察:小規模設定における消費パターンとオンラインデータサポートアナリティクスに関するス...