ロボキャット:自己改善型ロボティックエージェント

RoboCat Self-improving Robotic Agent.

新しい基盤エージェントは、異なるロボットアームを操作し、わずか100回のデモンストレーションからタスクを解決し、自己生成データから改善します。

ロボットは私たちの日常生活の一部となりつつありますが、しばしば特定のタスクをうまく実行するようにプログラムされるだけです。最近のAIの進歩を活用すれば、さまざまな方法で助けてくれるロボットが実現できるかもしれませんが、一般的な用途のロボットの開発は時間がかかるため、進展が遅れています。

私たちの最新の論文では、自己改善型のAIエージェントであるRoboCatを紹介しています。RoboCatは、さまざまなアームでさまざまなタスクを実行する方法を学び、その技術を改善するための新しいトレーニングデータを自己生成します。

以前の研究では、大規模なタスクをマルチタスクで学習し、言語モデルの理解力とヘルパーロボットの現実世界の能力を組み合わせたロボットの開発方法が探求されてきました。RoboCatは、複数のタスクを解決し適応する最初のエージェントであり、それを異なる実際のロボットで行います。

RoboCatは、他の最先端のモデルよりもはるかに高速に学習します。大規模かつ多様なデータセットを活用しているため、わずか100回のデモンストレーションでも新しいタスクを習得することができます。この能力は、ロボット工学の研究を加速するのに役立ちます。人間による監視型のトレーニングの必要性を減らし、汎用的なロボットの創造に向けた重要な一歩です。

RoboCatが自己改善する方法

RoboCatは、私たちのマルチモーダルモデルであるGato(「猫」のスペイン語)に基づいています。Gatoは言語、画像、アクションをシミュレーションおよび物理環境の両方で処理できます。私たちは、さまざまなロボットアームが数百の異なるタスクを解決するための画像とアクションのシーケンスの大規模なトレーニングデータセットとGatoのアーキテクチャを組み合わせました。

この最初のトレーニングの後、私たちはRoboCatを「自己改善」トレーニングサイクルに投入し、以前に見たことのないタスクのセットで学習させました。新しいタスクの学習は、以下の5つのステップに従って行われます:

  1. 人間が制御するロボットアームを使用して、新しいタスクまたはロボットの100〜1000回のデモンストレーションを収集します。
  2. この新しいタスク/アームでRoboCatを微調整し、専門化された分岐エージェントを作成します。
  3. 分岐エージェントは、この新しいタスク/アームで平均約10,000回のトレーニングを行い、さらなるトレーニングデータを生成します。
  4. デモンストレーションデータと自己生成データをRoboCatの既存のトレーニングデータセットに組み込みます。
  5. 新しいトレーニングデータセットでRoboCatの新バージョンをトレーニングします。
RoboCatは、自己生成された追加のトレーニングデータを自律的に生成する能力によって強化されたトレーニングサイクルを持っています。

すべてのトレーニングの組み合わせにより、最新のRoboCatは、実際のロボットアームとシミュレートされたロボットアームの両方を含む、数百万の軌跡のデータセットに基づいています。私たちは、さまざまなタイプのロボットと多くのロボットアームを使用して、RoboCatが実行することがトレーニングされるタスクを表すビジョンベースのデータを収集しました。

RoboCatは、さまざまなトレーニングデータタイプとタスクから学習します:実際のロボットアームがギアをつかむ映像、シミュレートされたアームがブロックを積み上げる映像、RoboCatがキュウリをつかむためにロボットアームを使用する映像。

新しいロボットアームを操作し、より複雑なタスクを解決することの学習

RoboCatは多様なトレーニングを通じて、わずか数時間で異なるロボットアームの操作を学びました。2本爪のグリッパーを持つアームで訓練されていたにもかかわらず、3本指のグリッパーと制御可能な入力の数が2倍になるようなより複雑なアームにも適応することができました。

左:RoboCatが制御を学んだ新しいロボットアーム ‍ 右:RoboCatが歯車を拾うためにアームを使用しているビデオ

わずか数時間で収集された1000の人間によるデモンストレーションを観察した後、RoboCatはこの新しいアームを器用に操作し、歯車を86%の成功率で成功裏に拾うことができました。同じレベルのデモンストレーションで、RoboCatはより複雑な制御に必要な、ボウルから正しい果物を取り出したり、形に合わせるパズルを解いたりするなど、精度と理解を組み合わせたタスクを解決するために適応することができました。

500-1000のデモンストレーション後にRoboCatが適応できるタスクの例。

自己改善型の汎用ロボット

RoboCatはトレーニングの良い循環を持っています:新しいタスクを学ぶほど、追加の新しいタスクを学ぶ能力が向上します。最初のバージョンのRoboCatは、タスクごとに500のデモンストレーションから学んだ後、以前に見たことのないタスクで36%の成功率で成功しました。しかし、さまざまなタスクにトレーニングされた最新のRoboCatは、同じタスクにおいてこの成功率を倍増させました。

最初のRoboCat(1回のトレーニング)と最終バージョン(幅広く多様なトレーニング、自己改善を含む)のパフォーマンスの大きな違い。両バージョンが以前に見たことのないタスクの500のデモンストレーションで微調整された後。

これらの改善は、RoboCatの経験の幅広さによるものであり、人々が特定の領域で学習を深めるにつれて、より多様なスキルを身につけるように似ています。ロボCatのスキルを独立して学び、迅速に自己改善する能力は、特に異なるロボットデバイスに適用された場合、より便利で汎用性のあるロボットエージェントの新世代への道を開くのに役立ちます。

arXivで私たちの論文を読む:https://arxiv.org/abs/2306.11706

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...

AIテクノロジー

アルトコインへの投資:暗号市場の包括的ガイド

アルトコインとは、ビットコインの後に登場した他の暗号通貨のことですこれらのデジタル通貨は、分散型ブロックチェーン技術...

AIテクノロジー

「2024年に注目すべきトップ10のソフトウェアアウトソーシング企業」

2024年のトップ10ソフトウェア委託革新者を探索し、ソフトウェア開発の成長と変革を推進してください

AIテクノロジー

「マーケティングにおける人工知能の短いガイド」

「デジタルマーケティングにおける人工知能の役割や、ビジネスにおける他のAIツールがデータに基づく意思決定に与える影響に...

AIテクノロジー

「ジェネレーティブAI(2024)の10の重要ポイント」

「2023年、生成AIの世界に飛び込み、その応用、影響、そして将来の課題についての洞察を得ましょう」

AIテクノロジー

AIの進歩における倫理的な課題のナビゲーション

「AIの進展に伴う倫理的な課題の多面的な景観を探求してみましょうAIが社会により統合されるにつれて倫理と責任に関する懸念...