話すロボット:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します

ロボットが話す:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳する

数十年にわたり、人々が遠い未来を想像するとき、ロボットが主役としてほぼ常に登場してきました。ロボットは頼りになる存在であり、助けになるだけでなく、魅力的な存在としても描かれてきました。しかし同じ数十年にわたり、その技術は手に入りにくく、想像上の科学小説の世界に閉じ込められたままでした。

本日、私たちはヘルプフルなロボットの未来に一歩近づくロボット技術の新たな進歩を紹介いたします。Robotics Transformer 2、またはRT-2は、初のビジョン-言語-アクション(VLA)モデルです。Web上のテキストと画像でトレーニングされたTransformerベースのモデルであり、RT-2は直接ロボットのアクションを出力することができます。言語モデルがWeb上のテキストでトレーニングされ、一般的なアイデアや概念を学ぶために使用されるのと同様に、RT-2はWebデータから知識を移行させてロボットの振る舞いを決定します。

言い換えると、RT-2はロボットの言葉を話すことができます。

ロボット学習の現実世界の課題

ヘルプフルなロボットの追求は常にヘルクレスのような努力が必要でした。なぜなら、世界の一般的なタスクを実行できるロボットは、複雑で抽象的なタスクを高度に変動する環境で処理できる必要があるからです。特に、それらが以前に見たことのない環境でのタスクです。

チャットボットとは異なり、ロボットは現実世界とその能力に「根拠」を持つ必要があります。彼らのトレーニングは、たとえばリンゴについてすべてを知ること、リンゴがどのように成長するか、物理的な特性を理解すること、またはシリウス・アイザック・ニュートンの頭に落ちたとされるリンゴを知ることに関するものではありません。ロボットはコンテキストでリンゴを認識し、赤いボールと区別し、それがどのように見えるかを理解し、さらに重要なことは、リンゴを取る方法を知っている必要があります。

これまで、ロボットを訓練するためには、物理的な世界のすべてのオブジェクト、環境、タスク、状況ごとに数十億のデータポイントを直接に訓練する必要がありました。これは革新者にとって時間と費用がかかりすぎるため、実用的ではありませんでした。学習は困難な取り組みであり、特にロボットにとってはさらに困難です。

RT-2による新たなアプローチ

最近の研究では、ロボットの推論能力が向上し、多段階の問題を分析するためのチェーン・オブ・ソート・プロンプティングと呼ばれる手法を使うことさえ可能になりました。PaLM-Eのようなビジョンモデルの導入により、ロボットは周囲の状況をより良く理解することができました。そして、RT-1は、システム間で情報を一般化する能力で知られるTransformerが、異なるタイプのロボットがお互いに学ぶのにも役立つことを示しました。

しかし、これまではロボットは複雑なシステムのスタック上で動作し、高レベルの推論と低レベルの操作システムがロボットを操作するために不完全なゲームを行っていました。自分が何をしたいかを考え、それを体の他の部分に伝えて動かす必要があります。RT-2はその複雑さを取り除き、1つのモデルが基礎モデルで見られる複雑な推論を実行するだけでなく、ロボットのアクションも出力することができます。さらに重要なことは、わずかな量のロボットトレーニングデータでも、システムが言語とビジョンのトレーニングデータに埋め込まれた概念をロボットのアクションに直接移行できることを示しています。それも、以前に訓練されたことのないタスクに対してです。

例えば、以前のシステムにごみを捨てる能力を持たせるには、ごみを識別できるように明示的にトレーニングする必要がありました。RT-2は、大量のWebデータから知識を移行する能力があるため、明示的なトレーニングなしでごみを識別することができます。それは、そのアクションを取るために訓練されたことがなくても、ごみを捨てる方法についての考えを持っています。そして、ごみの抽象的な性質について考えてみてください。チップスの袋やバナナの皮は、それらを食べた後にゴミになります。RT-2は、ビジョン-言語のトレーニングデータからそれを理解し、その仕事をすることができます。

ロボティクスの明るい未来

情報をアクションに移行できるRT-2の能力は、ロボットが新しい状況や環境により迅速に適応する可能性を示しています。6,000以上のロボット試行でRT-2モデルをテストした結果、チームはRT-2がトレーニングデータのタスクで以前のモデルであるRT-1と同じように機能し、未知のシナリオではRT-1の32%から62%へ性能がほぼ倍増したことがわかりました。

言い換えると、RT-2により、ロボットは私たちのように学習した概念を新しい状況に適用することができるようになりました。

RT-2は、AIの進歩がロボティクスへ急速に波及していることを示すだけでなく、より汎用性の高いロボットに対しても非常に大きな可能性を示しています。人間中心の環境でヘルプフルなロボットを実現するためにはまだ多くの作業が必要ですが、RT-2は私たちに手の届く範囲でロボティクスのエキサイティングな未来を示してくれます。

Google DeepMindブログで詳細な記事をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

BYOL(Bootstrap Your Own Latent)— コントラスティブな自己教示学習の代替手段

『今日の論文分析では、BYOL(Bootstrap Your Own Latent)の背後にある論文に詳しく触れますこれは、対比的な自己教師あり学...

機械学習

IIoTとAI:工業の風景を変革するシナジスティックなシンフォニー

IIoTとAIが融合し、変革的なシナジーを生み出し、リアルタイムデータ、予測能力、そして比類のない効率性を通じて産業を最適...

AI研究

アップルの研究者がDeepPCRを公開:通常は順次処理される操作を並列化してニューラルネットワークの推論とトレーニングの速度を向上させる新しい機械学習アルゴリズム

人工知能や深層学習の進展により、さまざまな革新が実現されています。テキストや画像の合成、分割、分類などの複雑なタスク...

AI研究

新しいディープラーニングの研究で、抗マラリア薬が骨粗しょう症の可能な治療薬として特定されました

骨粗鬆症は、骨の過剰な喪失と骨折のリスクが高まる状態を特徴とする疾患で、長年にわたり高齢者に悩み続けてきました。健康...

AIニュース

「比喩的に言えば、ChatGPTは生きている」

ChatGPTの成長は年々劇的に進んできました最近、OpenAIはChatGPTが聞くこと、見ること、話すことができるようになったことを...

人工知能

3つの新しい方法、生成AIがあなたの検索に役立つ方法

今日から、私たちはSearch Labsで最初の実験の1つであるSGE(Search Generative Experience)へのアクセスを開始し始めます