『LEOと出会いましょう:先進的な3Dワールドインタラクションとタスクソルビングのための画期的なエンボディードマルチモーダルエージェント』

『LEO との新たな出会い:画期的な 3D ワールドインタラクションとタスクソルビングのためのエンボディードマルチモーダルエージェント』

複数のタスクやドメインを重要な再プログラミングや再トレーニングなしに処理できるAIシステムは、ジェネラリストエージェントです。これらのエージェントは、様々なドメインにわたる知識とスキルを一般化し、さまざまな問題の解決において柔軟性と適応性を示すことを目指しています。トレーニングや研究の目的でのシミュレーションでは、しばしば3D環境が利用されます。これらのシミュレーションにおけるジェネラリストエージェントは、異なるシナリオに適応し、経験から学び、仮想空間内でタスクを実行することができます。たとえば、パイロットや外科医向けのトレーニングシミュレーションでは、これらのエージェントはさまざまなシナリオを再現し、適切に対応することができます。

3Dの世界におけるジェネラリストエージェントの課題は、三次元空間の複雑さの処理、多様な環境にわたって一般化する堅牢な表現の学習、および多次元的な環境の考慮を含んだ意思決定です。これらのエージェントは、強化学習、コンピュータビジョン、および空間的な推論といった技術を用いて、これらの環境内で効果的にナビゲーションや対話を行います。

北京総合人工知能研究所、CMU、北京大学、清華大学の研究者は、LLMベースのアーキテクチャで訓練されたLEOという汎用エージェントを提案しています。LEOは汎用的に構成されたマルチモーダルかつマルチタスキングエージェントです。LEOは、共有モデルアーキテクチャと重みを持つ形で知覚、基礎付け、推論、計画、行動を行うことができます。LEOは、具象視点のためのエゴセントリックな2D画像エンコーダと、第三者の大域的な視点のためのオブジェクトセントリックな3Dポイントクラウドエンコーダを通じて知覚します。

オートリグレッシブなトレーニング目標を用いることで、LEOはタスクに依存しない入出力で訓練することも可能です。3Dエンコーダは、観測されたエンティティごとにオブジェクトセントリックなトークンを生成します。このエンコーダの設計は、さまざまな具現化を持つタスクに柔軟に適応できます。LEOは、3Dビジョンと言語の対応および3Dビジョンと言語とアクションの基本原則に基づいています。チームはトレーニングデータを入手するため、オブジェクトレベルおよびシーンレベルのマルチモーダルタスクを含んだ包括的なデータセットを編集・生成しました。これにより、3D世界に対する深い理解と相互作用が求められる、規模と複雑さを超えたデータが豊富に取得されました。

また、チームはシーングラフに基づくプロンプティングおよびリファインメント手法、そしてオブジェクトセントリックな連鎖思考(O-CoT)を提案し、生成されたデータの品質を向上させ、データの規模と多様性を大幅に豊かにし、さらにLLMの空想を排除しました。チームはLEOを広範なタスクで評価し、具象的なナビゲーションやロボット操作などのタスクにおけるLEOの能力を証明しました。また、トレーニングデータを単純にスケーリングするだけで一貫したパフォーマンスの向上が見られました。

結果は、LEOの反応が豊かで情報豊かな空間関係を含み、3Dシーンに正確に基づいていることを示しています。LEOはシーンに存在する具体的なオブジェクトおよびこれらのオブジェクトに関する具体的なアクションを持っています。LEOは、3Dビジョン言語と具現化された動きのギャップを埋めることができます。チームの結果は、彼らの共同学習の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AIで生成されたコードはさらにテストが必要ですか?」

「AIを搭載したツールを使用すれば、アプリケーションのプログラミングが簡単になりますしかし、人間によって書かれたコード...

AIニュース

「安全で安心なAIに対する取り組みに基づいて行動する」

「ジェネラティブAIに特化した私たちのバグバウンティプログラムのニュースと、AIの供給チェーンに対するオープンソースセキ...

データサイエンス

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

Googleは最近のプライバシーポリシーの更新において、その強力なAIツールでよく知られていることから注目される注目すべき変...

AIテクノロジー

「ヌガーで科学文書処理を高める」

イントロダクション 自然言語処理および人工知能の分野では、科学的なPDFなどの非構造化データソースから価値ある情報を抽出...

AI研究

希望、恐怖、そしてAI:AIツールに対する消費者の態度に関する最新の調査結果

米国の消費者が人工知能(AI)に関する意見と認識について述べた最新の「Trust Survey」の結果を明らかにしたThe Vergeの報告...

AIニュース

「OpenAIがGPT-4を使用してスマートなコンテンツモデレーションを行う方法」

人工知能のパイオニアであるOpenAIは、GPT-4モデルのパワーをコンテンツのモデレーションに活用する革新的な手法を発表しまし...