「GoogleのRT-2 AIモデルに会いましょう – 人間のように学ぶロボット」

Meet Google's RT-2 AI model - a robot that learns like a human.

ニューラルネットワークは人間の脳の働きに触発されていますが、完全に同じわけではありません。しかし、Googleの新しいRT-2モデルが約束どおりに機能するとすれば、人間のようなAIへの大きな一歩となるかもしれません。GoogleのDeepMindが紹介したこのモデルは、ウェブとロボットのデータの両方から学習し、この獲得した知識をロボットの制御のための一般的な命令に変換します。

要するに、目標は人間とロボットの間のコミュニケーションの橋を築くことですが、それだけではありません。実行によって教えるのです。では、RT-2とは具体的には何でしょうか?チームによると、それはビジョン・ランゲージ・アクション(VLA)モデルです。トランスフォーマーベースの技術を使用して開発され、ウェブからスクレイピングしたテキストと画像データの両方でトレーニングされました。

彼らの投稿では、トレーニングについて次のように述べています。「RT-2は、1つ以上の画像を入力として受け取り、通常は自然言語テキストを表すトークンのシーケンスを生成するVLMをベースに構築されます… 私たちはPathways Language and Image model(PaLI-X)とPathways Language model Embodied(PaLM-E)をRT-2のバックボーンとして適応させました。」。

これまではあまり興味深くありませんでした。しかし、RT-2の革新はロボットのトレーニング能力にあります。このモデルはウェブデータ、概念、一般的なアイデアを取り入れ、その知識をロボットの行動に反映させることで、ロボットのトレーニングに役立ちます。しかし、RT-2はどのようにしてタスクにトレーニングされたのでしょうか?

Googleの投稿によれば、「各タスクでは、視覚的な意味の概念を理解し、これらの概念上でロボット制御を実行する能力が必要でした。例えば、「テーブルから落ちそうなバッグを拾ってください」といったコマンドや、「バナナを2プラス1の合計に移動させてください」といったコマンドは、ロボットがロボットデータでは見たことのないオブジェクトやシナリオに対して操作タスクを実行するために、ウェブベースのデータから翻訳された知識が必要でした。」。

本質的には、これによってロボットが人間の操作言語を理解し、話すことができるようになります。そして、これは複雑なタスクとロボットの関係が長い間問題となってきたため、困難な課題でした。ロボットが対処しなければならない物理的な変数があり、チャットボットとは異なるものです。

これにより、ロボットが抽象的な概念やアイデアに基づいて基盤を築く必要があります。多くの人気のあるAIプログラムはこれを心配する必要がありません。上記のように、環境のより良い理解を提供するモデルの助けを借りることで、AIの進歩によってロボット工学が恩恵を受けていることがわかります。

これにより、周囲に関連する数十億のデータポイントを必要とする従来のロボットトレーニングの方法が置き換えられる可能性があります。これは時間のかかる作業であり、リソースを消費するものでした。したがって、RT-2の知識と概念をロボットデバイスに転送できる能力により、適応性のあるロボット技術へのさらなる推進が期待されます。

そして、視覚モデリングの進歩により、AIのおかげでロボット技術が急速に進歩し続けることが期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「何を餌にしたの?このAIモデルは拡散モデルから訓練データを抽出できます」

2022年、拡散モデルはAI領域の重要な一部となりました。私たちはそれらによって生成された写真のようなリアルな画像を見てき...

機械学習

このAIニュースレターは、あなたが必要とするすべてです #55

今週、私たちはついにOpen AIのCode Interpreterをテストすることができ、ChatGPT内のGPT-4の新機能に興奮していましたOpenAI...

データサイエンス

JourneyDBとは:多様かつ高品質な生成画像が400万枚収録された大規模データセットであり、マルチモーダルな視覚理解のためにキュレーションされています

ChatGPTやDALL-Eなどの大規模な言語モデルの進化と、生成型人工知能の人気の上昇により、人間のようにコンテンツを生成するこ...

AI研究

MITとUC Berkeleyの研究者は、最小限の努力で人間がロボットに望むことを素早く教えることができるフレームワークを提案しました

ニューヨーク大学とカリフォルニア大学バークレー校との共同研究により、MITの研究者たちは、人間が最小限の努力で家庭のタス...

機械学習

Video-ControlNetを紹介します:コントロール可能なビデオ生成の未来を形作る革新的なテキストからビデオへの拡散モデル

近年、テキストベースのビジュアルコンテンツ生成が急速に発展しています。大規模なイメージテキストペアでトレーニングされ...

AIニュース

「マイクロソフト、『極めて無責任』なセキュリティ対策で厳しい批判を受ける」

エクスプロイトと脆弱性の重みに押し潰されるカードのように、Azureは崩壊しているように見えます