「GoogleのRT-2 AIモデルに会いましょう – 人間のように学ぶロボット」

Meet Google's RT-2 AI model - a robot that learns like a human.

ニューラルネットワークは人間の脳の働きに触発されていますが、完全に同じわけではありません。しかし、Googleの新しいRT-2モデルが約束どおりに機能するとすれば、人間のようなAIへの大きな一歩となるかもしれません。GoogleのDeepMindが紹介したこのモデルは、ウェブとロボットのデータの両方から学習し、この獲得した知識をロボットの制御のための一般的な命令に変換します。

要するに、目標は人間とロボットの間のコミュニケーションの橋を築くことですが、それだけではありません。実行によって教えるのです。では、RT-2とは具体的には何でしょうか?チームによると、それはビジョン・ランゲージ・アクション(VLA)モデルです。トランスフォーマーベースの技術を使用して開発され、ウェブからスクレイピングしたテキストと画像データの両方でトレーニングされました。

彼らの投稿では、トレーニングについて次のように述べています。「RT-2は、1つ以上の画像を入力として受け取り、通常は自然言語テキストを表すトークンのシーケンスを生成するVLMをベースに構築されます… 私たちはPathways Language and Image model(PaLI-X)とPathways Language model Embodied(PaLM-E)をRT-2のバックボーンとして適応させました。」。

これまではあまり興味深くありませんでした。しかし、RT-2の革新はロボットのトレーニング能力にあります。このモデルはウェブデータ、概念、一般的なアイデアを取り入れ、その知識をロボットの行動に反映させることで、ロボットのトレーニングに役立ちます。しかし、RT-2はどのようにしてタスクにトレーニングされたのでしょうか?

Googleの投稿によれば、「各タスクでは、視覚的な意味の概念を理解し、これらの概念上でロボット制御を実行する能力が必要でした。例えば、「テーブルから落ちそうなバッグを拾ってください」といったコマンドや、「バナナを2プラス1の合計に移動させてください」といったコマンドは、ロボットがロボットデータでは見たことのないオブジェクトやシナリオに対して操作タスクを実行するために、ウェブベースのデータから翻訳された知識が必要でした。」。

本質的には、これによってロボットが人間の操作言語を理解し、話すことができるようになります。そして、これは複雑なタスクとロボットの関係が長い間問題となってきたため、困難な課題でした。ロボットが対処しなければならない物理的な変数があり、チャットボットとは異なるものです。

これにより、ロボットが抽象的な概念やアイデアに基づいて基盤を築く必要があります。多くの人気のあるAIプログラムはこれを心配する必要がありません。上記のように、環境のより良い理解を提供するモデルの助けを借りることで、AIの進歩によってロボット工学が恩恵を受けていることがわかります。

これにより、周囲に関連する数十億のデータポイントを必要とする従来のロボットトレーニングの方法が置き換えられる可能性があります。これは時間のかかる作業であり、リソースを消費するものでした。したがって、RT-2の知識と概念をロボットデバイスに転送できる能力により、適応性のあるロボット技術へのさらなる推進が期待されます。

そして、視覚モデリングの進歩により、AIのおかげでロボット技術が急速に進歩し続けることが期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

なぜBankrateはAI生成記事を諦めたのか

1月に、Bankrateとその姉妹サイトであるCNETがAIによって生成された数百の記事を公開することで話題となりました彼らは慎重に...

AI研究

この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します

人間の視覚システムと似たように、世界を見て認識する人工システムを構築することは、コンピュータビジョンの重要な目標です...

AIニュース

Amazon Lex、Langchain、およびSageMaker Jumpstartを使用した会話型エクスペリエンスにおける生成AIの探求:イントロダクション

現代の快速な世界では、顧客はビジネスから迅速かつ効率的なサービスを期待していますただし、問い合わせの量が対応する人的...

AI研究

マイクロソフトと香港浸会大学の研究者が、WizardCoder A Code Evol-Instruct Fine-Tuned Code LLMを紹介しました

大規模言語モデル(LLM)は最近注目を集め、驚異的な成功を収めています。特にOpenAIのChatGPTは注目すべき例です。これらの...

AI研究

UCバークレーの研究者たちは、Gorillaという名前の、GPT-4を上回るAPIコールの記述において、Finetuned LLaMAベースのモデルを紹介しました

人工知能の分野における最近の大きな進歩は、大規模言語モデル(LLM)の導入です。これらのモデルは、自然言語処理(NLP)や...