話すロボット:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します

ロボットが話す:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳する

数十年にわたり、人々が遠い未来を想像するとき、ロボットが主役としてほぼ常に登場してきました。ロボットは頼りになる存在であり、助けになるだけでなく、魅力的な存在としても描かれてきました。しかし同じ数十年にわたり、その技術は手に入りにくく、想像上の科学小説の世界に閉じ込められたままでした。

本日、私たちはヘルプフルなロボットの未来に一歩近づくロボット技術の新たな進歩を紹介いたします。Robotics Transformer 2、またはRT-2は、初のビジョン-言語-アクション(VLA)モデルです。Web上のテキストと画像でトレーニングされたTransformerベースのモデルであり、RT-2は直接ロボットのアクションを出力することができます。言語モデルがWeb上のテキストでトレーニングされ、一般的なアイデアや概念を学ぶために使用されるのと同様に、RT-2はWebデータから知識を移行させてロボットの振る舞いを決定します。

言い換えると、RT-2はロボットの言葉を話すことができます。

ロボット学習の現実世界の課題

ヘルプフルなロボットの追求は常にヘルクレスのような努力が必要でした。なぜなら、世界の一般的なタスクを実行できるロボットは、複雑で抽象的なタスクを高度に変動する環境で処理できる必要があるからです。特に、それらが以前に見たことのない環境でのタスクです。

チャットボットとは異なり、ロボットは現実世界とその能力に「根拠」を持つ必要があります。彼らのトレーニングは、たとえばリンゴについてすべてを知ること、リンゴがどのように成長するか、物理的な特性を理解すること、またはシリウス・アイザック・ニュートンの頭に落ちたとされるリンゴを知ることに関するものではありません。ロボットはコンテキストでリンゴを認識し、赤いボールと区別し、それがどのように見えるかを理解し、さらに重要なことは、リンゴを取る方法を知っている必要があります。

これまで、ロボットを訓練するためには、物理的な世界のすべてのオブジェクト、環境、タスク、状況ごとに数十億のデータポイントを直接に訓練する必要がありました。これは革新者にとって時間と費用がかかりすぎるため、実用的ではありませんでした。学習は困難な取り組みであり、特にロボットにとってはさらに困難です。

RT-2による新たなアプローチ

最近の研究では、ロボットの推論能力が向上し、多段階の問題を分析するためのチェーン・オブ・ソート・プロンプティングと呼ばれる手法を使うことさえ可能になりました。PaLM-Eのようなビジョンモデルの導入により、ロボットは周囲の状況をより良く理解することができました。そして、RT-1は、システム間で情報を一般化する能力で知られるTransformerが、異なるタイプのロボットがお互いに学ぶのにも役立つことを示しました。

しかし、これまではロボットは複雑なシステムのスタック上で動作し、高レベルの推論と低レベルの操作システムがロボットを操作するために不完全なゲームを行っていました。自分が何をしたいかを考え、それを体の他の部分に伝えて動かす必要があります。RT-2はその複雑さを取り除き、1つのモデルが基礎モデルで見られる複雑な推論を実行するだけでなく、ロボットのアクションも出力することができます。さらに重要なことは、わずかな量のロボットトレーニングデータでも、システムが言語とビジョンのトレーニングデータに埋め込まれた概念をロボットのアクションに直接移行できることを示しています。それも、以前に訓練されたことのないタスクに対してです。

例えば、以前のシステムにごみを捨てる能力を持たせるには、ごみを識別できるように明示的にトレーニングする必要がありました。RT-2は、大量のWebデータから知識を移行する能力があるため、明示的なトレーニングなしでごみを識別することができます。それは、そのアクションを取るために訓練されたことがなくても、ごみを捨てる方法についての考えを持っています。そして、ごみの抽象的な性質について考えてみてください。チップスの袋やバナナの皮は、それらを食べた後にゴミになります。RT-2は、ビジョン-言語のトレーニングデータからそれを理解し、その仕事をすることができます。

ロボティクスの明るい未来

情報をアクションに移行できるRT-2の能力は、ロボットが新しい状況や環境により迅速に適応する可能性を示しています。6,000以上のロボット試行でRT-2モデルをテストした結果、チームはRT-2がトレーニングデータのタスクで以前のモデルであるRT-1と同じように機能し、未知のシナリオではRT-1の32%から62%へ性能がほぼ倍増したことがわかりました。

言い換えると、RT-2により、ロボットは私たちのように学習した概念を新しい状況に適用することができるようになりました。

RT-2は、AIの進歩がロボティクスへ急速に波及していることを示すだけでなく、より汎用性の高いロボットに対しても非常に大きな可能性を示しています。人間中心の環境でヘルプフルなロボットを実現するためにはまだ多くの作業が必要ですが、RT-2は私たちに手の届く範囲でロボティクスのエキサイティングな未来を示してくれます。

Google DeepMindブログで詳細な記事をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マルチクエリアテンションの解説

マルチクエリアテンション(MQA)は、モデルのパフォーマンスを保証しながら、デコーダ内のトークン生成の速度を加速すること...

人工知能

AIの世界で生き残るにはどうすればいいですか?あなたの仕事は危険にさらされていますか?

あなたの仕事は危険にさらされていますか?これは多くの労働者が悩む質問ですが、最近の解雇の文脈ではありません私が言って...

データサイエンス

「メタは、トレーニングにLLaMAモデルを使用するために著作権のある本を使用し、著者たちは訴訟を起こしています」

Meta Platforms、以前のFacebookとして知られる企業が、コメディアンのサラ・シルバーマンやピュリッツァー賞受賞者のマイケ...

機械学習

AI医療診断はどのように動作しますか?

医療分野では、人工知能(AI)が診断や治療計画においてますます頻繁に使用されるようになっています。近年、AIと機械学習は...

機械学習

ドレスコードの解読👗 自動ファッションアイテム検出のためのディープラーニング

電子商取引の活気ある世界では、ファッション業界は独自のランウェイですしかし、もし我々がこのランウェイのドレスコードを...

機械学習

Microsoft BingはNVIDIA Tritonを使用して広告配信を高速化

Jiusheng Chen氏のチームは加速しました。 彼らは、NVIDIA Triton Inference ServerをNVIDIA A100 Tensor Core GPUで実行する...