話すロボット:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します
ロボットが話す:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳する
数十年にわたり、人々が遠い未来を想像するとき、ロボットが主役としてほぼ常に登場してきました。ロボットは頼りになる存在であり、助けになるだけでなく、魅力的な存在としても描かれてきました。しかし同じ数十年にわたり、その技術は手に入りにくく、想像上の科学小説の世界に閉じ込められたままでした。
本日、私たちはヘルプフルなロボットの未来に一歩近づくロボット技術の新たな進歩を紹介いたします。Robotics Transformer 2、またはRT-2は、初のビジョン-言語-アクション(VLA)モデルです。Web上のテキストと画像でトレーニングされたTransformerベースのモデルであり、RT-2は直接ロボットのアクションを出力することができます。言語モデルがWeb上のテキストでトレーニングされ、一般的なアイデアや概念を学ぶために使用されるのと同様に、RT-2はWebデータから知識を移行させてロボットの振る舞いを決定します。
言い換えると、RT-2はロボットの言葉を話すことができます。
ロボット学習の現実世界の課題
ヘルプフルなロボットの追求は常にヘルクレスのような努力が必要でした。なぜなら、世界の一般的なタスクを実行できるロボットは、複雑で抽象的なタスクを高度に変動する環境で処理できる必要があるからです。特に、それらが以前に見たことのない環境でのタスクです。
- AI導入の迷宮を進む
- 仮想現実における人間の動作認識の進展:本AI論文では、LKA-GCNというスケルトン大カーネルアテンションを導入して、非の打ちどころのないパフォーマンスを実現します
- 「統計学習入門、Pythonエディション:無料の書籍」
チャットボットとは異なり、ロボットは現実世界とその能力に「根拠」を持つ必要があります。彼らのトレーニングは、たとえばリンゴについてすべてを知ること、リンゴがどのように成長するか、物理的な特性を理解すること、またはシリウス・アイザック・ニュートンの頭に落ちたとされるリンゴを知ることに関するものではありません。ロボットはコンテキストでリンゴを認識し、赤いボールと区別し、それがどのように見えるかを理解し、さらに重要なことは、リンゴを取る方法を知っている必要があります。
これまで、ロボットを訓練するためには、物理的な世界のすべてのオブジェクト、環境、タスク、状況ごとに数十億のデータポイントを直接に訓練する必要がありました。これは革新者にとって時間と費用がかかりすぎるため、実用的ではありませんでした。学習は困難な取り組みであり、特にロボットにとってはさらに困難です。
RT-2による新たなアプローチ
最近の研究では、ロボットの推論能力が向上し、多段階の問題を分析するためのチェーン・オブ・ソート・プロンプティングと呼ばれる手法を使うことさえ可能になりました。PaLM-Eのようなビジョンモデルの導入により、ロボットは周囲の状況をより良く理解することができました。そして、RT-1は、システム間で情報を一般化する能力で知られるTransformerが、異なるタイプのロボットがお互いに学ぶのにも役立つことを示しました。
しかし、これまではロボットは複雑なシステムのスタック上で動作し、高レベルの推論と低レベルの操作システムがロボットを操作するために不完全なゲームを行っていました。自分が何をしたいかを考え、それを体の他の部分に伝えて動かす必要があります。RT-2はその複雑さを取り除き、1つのモデルが基礎モデルで見られる複雑な推論を実行するだけでなく、ロボットのアクションも出力することができます。さらに重要なことは、わずかな量のロボットトレーニングデータでも、システムが言語とビジョンのトレーニングデータに埋め込まれた概念をロボットのアクションに直接移行できることを示しています。それも、以前に訓練されたことのないタスクに対してです。
例えば、以前のシステムにごみを捨てる能力を持たせるには、ごみを識別できるように明示的にトレーニングする必要がありました。RT-2は、大量のWebデータから知識を移行する能力があるため、明示的なトレーニングなしでごみを識別することができます。それは、そのアクションを取るために訓練されたことがなくても、ごみを捨てる方法についての考えを持っています。そして、ごみの抽象的な性質について考えてみてください。チップスの袋やバナナの皮は、それらを食べた後にゴミになります。RT-2は、ビジョン-言語のトレーニングデータからそれを理解し、その仕事をすることができます。
ロボティクスの明るい未来
情報をアクションに移行できるRT-2の能力は、ロボットが新しい状況や環境により迅速に適応する可能性を示しています。6,000以上のロボット試行でRT-2モデルをテストした結果、チームはRT-2がトレーニングデータのタスクで以前のモデルであるRT-1と同じように機能し、未知のシナリオではRT-1の32%から62%へ性能がほぼ倍増したことがわかりました。
言い換えると、RT-2により、ロボットは私たちのように学習した概念を新しい状況に適用することができるようになりました。
RT-2は、AIの進歩がロボティクスへ急速に波及していることを示すだけでなく、より汎用性の高いロボットに対しても非常に大きな可能性を示しています。人間中心の環境でヘルプフルなロボットを実現するためにはまだ多くの作業が必要ですが、RT-2は私たちに手の届く範囲でロボティクスのエキサイティングな未来を示してくれます。
Google DeepMindブログで詳細な記事をご覧ください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「LangChainを使用したLLMアプリケーションのためのプロンプトエンジニアリングのマスタリング」
- メディアでのアルコール摂取の検出:CLIPのゼロショット学習とABIDLA2ディープラーニングの画像解析のパワーを評価する
- このAI論文では、「ステーブルシグネチャ:画像透かしと潜在的な拡散モデルを組み合わせたアクティブ戦略」が紹介されています
- OpenAIのLLMの支配を覆すことを目指す挑戦者:XLSTM
- 「AIと産業のデジタル化の時代に、開かれたUSDに開発者が注目」 Note OpenUSD refers to an open-source software library called USD (Universal Scene Description), which is commonly used in computer graphics and animation.
- 「AIがクリーンエネルギーの未来を支える方法」
- 「REPLUG」をご紹介しますこれは、凍結された言語モデルと凍結/調整可能なリトリーバを組み合わせた、検索増強型言語モデリング(LM)フレームワークですこれにより、GPT-3(175B)の言語モデリングの性能が6.3%向上します