「GoogleのRT-2 AIモデルに会いましょう – 人間のように学ぶロボット」

Meet Google's RT-2 AI model - a robot that learns like a human.

ニューラルネットワークは人間の脳の働きに触発されていますが、完全に同じわけではありません。しかし、Googleの新しいRT-2モデルが約束どおりに機能するとすれば、人間のようなAIへの大きな一歩となるかもしれません。GoogleのDeepMindが紹介したこのモデルは、ウェブとロボットのデータの両方から学習し、この獲得した知識をロボットの制御のための一般的な命令に変換します。

要するに、目標は人間とロボットの間のコミュニケーションの橋を築くことですが、それだけではありません。実行によって教えるのです。では、RT-2とは具体的には何でしょうか?チームによると、それはビジョン・ランゲージ・アクション(VLA)モデルです。トランスフォーマーベースの技術を使用して開発され、ウェブからスクレイピングしたテキストと画像データの両方でトレーニングされました。

彼らの投稿では、トレーニングについて次のように述べています。「RT-2は、1つ以上の画像を入力として受け取り、通常は自然言語テキストを表すトークンのシーケンスを生成するVLMをベースに構築されます… 私たちはPathways Language and Image model(PaLI-X)とPathways Language model Embodied(PaLM-E)をRT-2のバックボーンとして適応させました。」。

これまではあまり興味深くありませんでした。しかし、RT-2の革新はロボットのトレーニング能力にあります。このモデルはウェブデータ、概念、一般的なアイデアを取り入れ、その知識をロボットの行動に反映させることで、ロボットのトレーニングに役立ちます。しかし、RT-2はどのようにしてタスクにトレーニングされたのでしょうか?

Googleの投稿によれば、「各タスクでは、視覚的な意味の概念を理解し、これらの概念上でロボット制御を実行する能力が必要でした。例えば、「テーブルから落ちそうなバッグを拾ってください」といったコマンドや、「バナナを2プラス1の合計に移動させてください」といったコマンドは、ロボットがロボットデータでは見たことのないオブジェクトやシナリオに対して操作タスクを実行するために、ウェブベースのデータから翻訳された知識が必要でした。」。

本質的には、これによってロボットが人間の操作言語を理解し、話すことができるようになります。そして、これは複雑なタスクとロボットの関係が長い間問題となってきたため、困難な課題でした。ロボットが対処しなければならない物理的な変数があり、チャットボットとは異なるものです。

これにより、ロボットが抽象的な概念やアイデアに基づいて基盤を築く必要があります。多くの人気のあるAIプログラムはこれを心配する必要がありません。上記のように、環境のより良い理解を提供するモデルの助けを借りることで、AIの進歩によってロボット工学が恩恵を受けていることがわかります。

これにより、周囲に関連する数十億のデータポイントを必要とする従来のロボットトレーニングの方法が置き換えられる可能性があります。これは時間のかかる作業であり、リソースを消費するものでした。したがって、RT-2の知識と概念をロボットデバイスに転送できる能力により、適応性のあるロボット技術へのさらなる推進が期待されます。

そして、視覚モデリングの進歩により、AIのおかげでロボット技術が急速に進歩し続けることが期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「このディスインフォメーションはあなたのためだけです」

生成AIは単にインターネットをより多くの嘘で満たすだけではありません-それはまた、特定のグループや個人をターゲットにした...

機械学習

マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

テキストから音声(TTS)の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者...

機械学習

生成AIの逆説を調和させる:生成と理解における人間と機械の知能の相反する進化の道

ChatGPTからGPT4まで、DALL-E 2/3、Midjourneyまで、最新の生成AIの波は世界中で前例のない注目を集めています。この魅力は、...

AIニュース

「タイムクリスタルからワームホールまで:量子シミュレーションが実際になるのはいつですか?」

「物理学者たちは、量子コンピュータを使って異国情緒ある現象を創り出し、それらの創造物が本当に現実だと主張しています」

AI研究

中国の研究者がImageBind-LLMを紹介:ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法

研究者は最近、大規模言語モデル(LLM)の指示調整において大きな改善を見ています。ChatGPTとGPT-4は、言語と視覚に従って人...

機械学習

ビデオアクション認識を最適化するにはどのようにすればよいのでしょうか?深層学習アプローチにおける空間的および時間的注意モジュールの力を明らかにします

アクション認識は、動画中の人間のアクションや動きを自動的に識別し、カテゴリ分けするプロセスです。監視、ロボティクス、...