『LEOと出会いましょう:先進的な3Dワールドインタラクションとタスクソルビングのための画期的なエンボディードマルチモーダルエージェント』

『LEO との新たな出会い:画期的な 3D ワールドインタラクションとタスクソルビングのためのエンボディードマルチモーダルエージェント』

複数のタスクやドメインを重要な再プログラミングや再トレーニングなしに処理できるAIシステムは、ジェネラリストエージェントです。これらのエージェントは、様々なドメインにわたる知識とスキルを一般化し、さまざまな問題の解決において柔軟性と適応性を示すことを目指しています。トレーニングや研究の目的でのシミュレーションでは、しばしば3D環境が利用されます。これらのシミュレーションにおけるジェネラリストエージェントは、異なるシナリオに適応し、経験から学び、仮想空間内でタスクを実行することができます。たとえば、パイロットや外科医向けのトレーニングシミュレーションでは、これらのエージェントはさまざまなシナリオを再現し、適切に対応することができます。

3Dの世界におけるジェネラリストエージェントの課題は、三次元空間の複雑さの処理、多様な環境にわたって一般化する堅牢な表現の学習、および多次元的な環境の考慮を含んだ意思決定です。これらのエージェントは、強化学習、コンピュータビジョン、および空間的な推論といった技術を用いて、これらの環境内で効果的にナビゲーションや対話を行います。

北京総合人工知能研究所、CMU、北京大学、清華大学の研究者は、LLMベースのアーキテクチャで訓練されたLEOという汎用エージェントを提案しています。LEOは汎用的に構成されたマルチモーダルかつマルチタスキングエージェントです。LEOは、共有モデルアーキテクチャと重みを持つ形で知覚、基礎付け、推論、計画、行動を行うことができます。LEOは、具象視点のためのエゴセントリックな2D画像エンコーダと、第三者の大域的な視点のためのオブジェクトセントリックな3Dポイントクラウドエンコーダを通じて知覚します。

オートリグレッシブなトレーニング目標を用いることで、LEOはタスクに依存しない入出力で訓練することも可能です。3Dエンコーダは、観測されたエンティティごとにオブジェクトセントリックなトークンを生成します。このエンコーダの設計は、さまざまな具現化を持つタスクに柔軟に適応できます。LEOは、3Dビジョンと言語の対応および3Dビジョンと言語とアクションの基本原則に基づいています。チームはトレーニングデータを入手するため、オブジェクトレベルおよびシーンレベルのマルチモーダルタスクを含んだ包括的なデータセットを編集・生成しました。これにより、3D世界に対する深い理解と相互作用が求められる、規模と複雑さを超えたデータが豊富に取得されました。

また、チームはシーングラフに基づくプロンプティングおよびリファインメント手法、そしてオブジェクトセントリックな連鎖思考(O-CoT)を提案し、生成されたデータの品質を向上させ、データの規模と多様性を大幅に豊かにし、さらにLLMの空想を排除しました。チームはLEOを広範なタスクで評価し、具象的なナビゲーションやロボット操作などのタスクにおけるLEOの能力を証明しました。また、トレーニングデータを単純にスケーリングするだけで一貫したパフォーマンスの向上が見られました。

結果は、LEOの反応が豊かで情報豊かな空間関係を含み、3Dシーンに正確に基づいていることを示しています。LEOはシーンに存在する具体的なオブジェクトおよびこれらのオブジェクトに関する具体的なアクションを持っています。LEOは、3Dビジョン言語と具現化された動きのギャップを埋めることができます。チームの結果は、彼らの共同学習の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ジェミニと共に、バードはこれまで最大のアップグレードを実現しました

「私たちは、Geminiの先進機能をBardに導入し始めています」

機械学習

「EコマースにおけるLLMSを使用したカスタマイズされたマーケティングコピーライティング」

紹介 技術革新と急速なデジタル化によって定義される時代において、Eコマースは現代のビジネスの基盤となっています。グロー...

コンピュータサイエンス

ジェイソン・アーボン:「百万年後、超パワフルなコンピュータは我々の時代のテスターたちを称えるでしょう」

「Jason Arbonと一緒に、テストにおけるAIの使用、いくぶん不公平なマニュアルQA vs. 自動化QAの闘い、新しいテクノロジーの...

人工知能

「ゲームからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高くなっていますロイターによると、株価は過去8ヶ月で3倍に増加しまし...

AIニュース

「サイバーセキュリティとAI、テキサスサイバーサミットの中心に」

「テキサスサイバーサミット2023のレビューに飛び込んでくださいAIがセキュリティに与える影響を知り、ゼロトラスト戦略につ...

AIニュース

Googleがコンテンツを評価する方法:最新の更新

グーグルは、世界をリードする検索エンジンであり、人工知能(AI)技術の理解と適応において重要な進展を遂げています。最近...