『LEOと出会いましょう:先進的な3Dワールドインタラクションとタスクソルビングのための画期的なエンボディードマルチモーダルエージェント』

『LEO との新たな出会い:画期的な 3D ワールドインタラクションとタスクソルビングのためのエンボディードマルチモーダルエージェント』

複数のタスクやドメインを重要な再プログラミングや再トレーニングなしに処理できるAIシステムは、ジェネラリストエージェントです。これらのエージェントは、様々なドメインにわたる知識とスキルを一般化し、さまざまな問題の解決において柔軟性と適応性を示すことを目指しています。トレーニングや研究の目的でのシミュレーションでは、しばしば3D環境が利用されます。これらのシミュレーションにおけるジェネラリストエージェントは、異なるシナリオに適応し、経験から学び、仮想空間内でタスクを実行することができます。たとえば、パイロットや外科医向けのトレーニングシミュレーションでは、これらのエージェントはさまざまなシナリオを再現し、適切に対応することができます。

3Dの世界におけるジェネラリストエージェントの課題は、三次元空間の複雑さの処理、多様な環境にわたって一般化する堅牢な表現の学習、および多次元的な環境の考慮を含んだ意思決定です。これらのエージェントは、強化学習、コンピュータビジョン、および空間的な推論といった技術を用いて、これらの環境内で効果的にナビゲーションや対話を行います。

北京総合人工知能研究所、CMU、北京大学、清華大学の研究者は、LLMベースのアーキテクチャで訓練されたLEOという汎用エージェントを提案しています。LEOは汎用的に構成されたマルチモーダルかつマルチタスキングエージェントです。LEOは、共有モデルアーキテクチャと重みを持つ形で知覚、基礎付け、推論、計画、行動を行うことができます。LEOは、具象視点のためのエゴセントリックな2D画像エンコーダと、第三者の大域的な視点のためのオブジェクトセントリックな3Dポイントクラウドエンコーダを通じて知覚します。

オートリグレッシブなトレーニング目標を用いることで、LEOはタスクに依存しない入出力で訓練することも可能です。3Dエンコーダは、観測されたエンティティごとにオブジェクトセントリックなトークンを生成します。このエンコーダの設計は、さまざまな具現化を持つタスクに柔軟に適応できます。LEOは、3Dビジョンと言語の対応および3Dビジョンと言語とアクションの基本原則に基づいています。チームはトレーニングデータを入手するため、オブジェクトレベルおよびシーンレベルのマルチモーダルタスクを含んだ包括的なデータセットを編集・生成しました。これにより、3D世界に対する深い理解と相互作用が求められる、規模と複雑さを超えたデータが豊富に取得されました。

また、チームはシーングラフに基づくプロンプティングおよびリファインメント手法、そしてオブジェクトセントリックな連鎖思考(O-CoT)を提案し、生成されたデータの品質を向上させ、データの規模と多様性を大幅に豊かにし、さらにLLMの空想を排除しました。チームはLEOを広範なタスクで評価し、具象的なナビゲーションやロボット操作などのタスクにおけるLEOの能力を証明しました。また、トレーニングデータを単純にスケーリングするだけで一貫したパフォーマンスの向上が見られました。

結果は、LEOの反応が豊かで情報豊かな空間関係を含み、3Dシーンに正確に基づいていることを示しています。LEOはシーンに存在する具体的なオブジェクトおよびこれらのオブジェクトに関する具体的なアクションを持っています。LEOは、3Dビジョン言語と具現化された動きのギャップを埋めることができます。チームの結果は、彼らの共同学習の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「LangChainとは何ですか?利用事例と利点」

LangChainはプログラマが大規模言語モデルを用いてアプリケーションを開発するための人工知能フレームワークです。ライブラリ...

データサイエンス

「AIはほとんどのパスワードを1分以内に解読できますAI攻撃からパスワードを保護する方法」

人工知能(AI)は、次の技術革新の波をもたらしています。AIの能力に魅了される一方で、その潜在的なリスクへの懸念も高まっ...

機械学習

このAIニュースレターは、あなたが必要とするすべてです#71

今週、ジョー・バイデン大統領は人工知能の規制を再び注目させるために、人工知能の監督を目的とする行政命令に署名しました...

人工知能

「ChatGPTとZapierでTwitterの成長を自動化する」

「忙しい時でも、Twitterの観客との関係を維持しましょう」

AI研究

「Microsoftの研究者がPIT(Permutation Invariant Transformation)を提案:動的まばらさのためのディープラーニングコンパイラ」

“`html 最近、深層学習は動的スパース性に最適化されたモデルの研究によって注目されています。このシナリオでは、スパ...

データサイエンス

「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」

大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用に...