『LEOと出会いましょう:先進的な3Dワールドインタラクションとタスクソルビングのための画期的なエンボディードマルチモーダルエージェント』
『LEO との新たな出会い:画期的な 3D ワールドインタラクションとタスクソルビングのためのエンボディードマルチモーダルエージェント』
複数のタスクやドメインを重要な再プログラミングや再トレーニングなしに処理できるAIシステムは、ジェネラリストエージェントです。これらのエージェントは、様々なドメインにわたる知識とスキルを一般化し、さまざまな問題の解決において柔軟性と適応性を示すことを目指しています。トレーニングや研究の目的でのシミュレーションでは、しばしば3D環境が利用されます。これらのシミュレーションにおけるジェネラリストエージェントは、異なるシナリオに適応し、経験から学び、仮想空間内でタスクを実行することができます。たとえば、パイロットや外科医向けのトレーニングシミュレーションでは、これらのエージェントはさまざまなシナリオを再現し、適切に対応することができます。
3Dの世界におけるジェネラリストエージェントの課題は、三次元空間の複雑さの処理、多様な環境にわたって一般化する堅牢な表現の学習、および多次元的な環境の考慮を含んだ意思決定です。これらのエージェントは、強化学習、コンピュータビジョン、および空間的な推論といった技術を用いて、これらの環境内で効果的にナビゲーションや対話を行います。
北京総合人工知能研究所、CMU、北京大学、清華大学の研究者は、LLMベースのアーキテクチャで訓練されたLEOという汎用エージェントを提案しています。LEOは汎用的に構成されたマルチモーダルかつマルチタスキングエージェントです。LEOは、共有モデルアーキテクチャと重みを持つ形で知覚、基礎付け、推論、計画、行動を行うことができます。LEOは、具象視点のためのエゴセントリックな2D画像エンコーダと、第三者の大域的な視点のためのオブジェクトセントリックな3Dポイントクラウドエンコーダを通じて知覚します。
- 「スロープ・トランスフォーマーに出会ってください:銀行の言語を理解するために特別に訓練された大規模な言語モデル(LLM)」
- 新しいNVIDIA GPUベースのAmazon EC2インスタンスを3つ紹介します
- 「前方予測デコーディング」:LLM推論を加速するための並列デコーディングアルゴリズム
オートリグレッシブなトレーニング目標を用いることで、LEOはタスクに依存しない入出力で訓練することも可能です。3Dエンコーダは、観測されたエンティティごとにオブジェクトセントリックなトークンを生成します。このエンコーダの設計は、さまざまな具現化を持つタスクに柔軟に適応できます。LEOは、3Dビジョンと言語の対応および3Dビジョンと言語とアクションの基本原則に基づいています。チームはトレーニングデータを入手するため、オブジェクトレベルおよびシーンレベルのマルチモーダルタスクを含んだ包括的なデータセットを編集・生成しました。これにより、3D世界に対する深い理解と相互作用が求められる、規模と複雑さを超えたデータが豊富に取得されました。
また、チームはシーングラフに基づくプロンプティングおよびリファインメント手法、そしてオブジェクトセントリックな連鎖思考(O-CoT)を提案し、生成されたデータの品質を向上させ、データの規模と多様性を大幅に豊かにし、さらにLLMの空想を排除しました。チームはLEOを広範なタスクで評価し、具象的なナビゲーションやロボット操作などのタスクにおけるLEOの能力を証明しました。また、トレーニングデータを単純にスケーリングするだけで一貫したパフォーマンスの向上が見られました。
結果は、LEOの反応が豊かで情報豊かな空間関係を含み、3Dシーンに正確に基づいていることを示しています。LEOはシーンに存在する具体的なオブジェクトおよびこれらのオブジェクトに関する具体的なアクションを持っています。LEOは、3Dビジョン言語と具現化された動きのギャップを埋めることができます。チームの結果は、彼らの共同学習の可能性を示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles