このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています

This AI paper proposes injecting a 3D world into a large-scale language model and introducing a new family of 3D-LLMs.

ここ数年、大型言語モデル(LLM)(GPT4など)の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスクに優れています。最近の研究では、2Dビジュアルを理解し意味を理解することができる新しいタイプのマルチモーダルLLM(FlamingoやBLIP-2など)のための画像や動画の整合性に焦点を当てています。しかし、これらのモデルは、空間的な関連性、アフォーダンス、物理、相互作用など、現実の3D物理世界に存在するより深い概念とは異なるものに基づいているため、3D状況を理解し、その理解に基づいて推論と計画を行うことができるSF映画に登場するロボットのヘルパーと比較して無意味です。そのため、3Dワールドを大型言語モデルに組み込み、入力としてさまざまな3D関連のタスクを処理できる新しいクラスの3D-LLMを導入することを提案しています。

図1

3D表現を使用すると、LLMは次の2つの点で利益を得ることができます:(1)エピソード的な部分的な観察ではなく、全体的な3D表現に完全なシーンの長期的なメモリを保存できます。(2)3D表現からの推論により、アフォーダンスや空間的なリンケージなどの3Dの特徴を推論することができ、言語または2D画像ベースのLLMよりも遥かに進んだ能力を持つことができます。提案された3D-LLMを訓練するためには、データ収集が重要な障壁となります。3Dデータの不足により、インターネット上の2D画像とテキストデータの豊富さとは対照的に、3Dデータを基にした基礎モデルを作成することが困難です。さらに困難なのは、言語的な説明と組み合わせた3Dデータを取得することです。

この問題を解決するために、彼らは言語とリンクされた大量の3Dデータを提供する特異なデータ生成プロセスのコレクションを提案しています。彼らは、3Dデータと言語の間のコミュニケーションにChatGPTを使用した3つの効果的なプロンプティングプロセスを提供しています。図1に示されているように、これにより、3Dキャプション、デンスキャプション、3D質問応答、3Dタスク分解、3Dグラウンディング、3D支援対話、ナビゲーションなど、さまざまなタスクに関する情報を含む30万の3D言語データを取得できます。次の困難は、3D-LLMに対応する有用な3D属性を見つけることです。一つの方法は、CLIPに似た対比学習パラダイムを使用して、言語と2D画像を整列させることで、3Dエンコーダをゼロから訓練することです。ただし、このアプローチは多くのデータ、時間、およびGPUリソースを使用します。異なる視点から、アイデアフュージョンや3D-CLRなどの最近の取り組みでは、2Dマルチビュー写真から3D特徴を構築しています。これに対応するために、2D事前訓練済みの特徴から3D特徴を作成する3D特徴エクストラクタを使用しています。

最近のビジュアル言語モデル(BLIP-2やFlamingoなど)は、2D事前訓練済みCLIP特徴を使用してVLMを訓練することを始めました。彼らは、2D VLMをバックボーンとして簡単に使用し、抽出された3D特徴を効果的に3D-LLMを訓練するための入力とすることができます。 3D LLMが情報の基になる3D空間的な感覚を持つことが予想される事実は、伝統的なLLMや2D VLMとは異なる重要な点であります。そのため、UCLA、上海交通大学、中国南方科技大学、イリノイ大学アーバナ・シャンペーン校、MIT、UMass AmherstおよびMIT-IBM Watson AI Labの研究者は、言語と地理的な場所を結び付ける3Dローカリゼーションシステムを作成しました。彼らは、取得した3D特徴に3D位置埋め込みを追加して、空間情報をより効果的にエンコードします。さらに、3D-LLMにいくつかの位置トークンを追加します。これにより、特定の景色の中の特定のアイテムの言語的な説明に基づいて、位置トークンを生成することにより、ローカリゼーションを訓練することができます。これにより、3D-LLMは3D空間データをより効果的に記録することができます。

結論として、彼らの論文は以下の貢献を行っています:

•彼らは、3Dポイントの入力を使用して、3D関連のタスクを処理できる新しい3Dベースの大規模言語モデル(3D-LLMs)の新しいファミリーを提示しています。彼らは、従来のまたは2D-LLMsの範囲外の活動、例えば全体のシーンの知識、3D空間の接続、利用可能性、および3D計画を含むものに重点を置いています。

•彼らは、3D言語の多くのデータを生成できる革新的なデータ収集パイプラインを作成しました。パイプラインに基づいて、彼らは3D関連の幅広い活動(3Dの基盤、密なキャプション、3Dの質問応答、タスク分解、3D支援対話、ナビゲーションなど)をカバーする30万以上の3D言語データポイントを含むデータセットを収集しました。

•彼らは、レンダリングされた複数の視点の画像を取り込み、有用な3D特徴を抽出する3D特徴抽出器を使用しています。彼らは、2Dの事前学習済みVLMを使用してトレーニングシステムを構築しました。3D-LLMsをより良い3D空間情報の収集に向けてトレーニングするために、3Dの位置推定手法を追加しました。

•実験では、ScanQAという保留評価データセットの方が最先端のベースラインよりも優れた結果を示しています。特に、3D-LLMsはベースライン(例:BLEU-1で9%)よりも優れたパフォーマンスを発揮しています。彼らの手法は、3Dキャプション作成、タスク作成、および3D支援対話のための保留データセットを使用したテストで2D VLMsを上回っています。質的な調査では、彼らの手法がさまざまなジョブをより詳細に処理できることが示されています。

•彼らは、今後の研究での使用のために、3D-LLMs、3D言語データセット、およびデータセットの言語に整列した3D特徴を利用可能にしたいと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして依然として人間も重要

LinkedInのフィードとインフラの最新更新について読むと、人間を中心に据えた原則を技術用語と実装に繋げる方法が解説されて...

データサイエンス

「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上...

AIニュース

ChatGPTによって発明された10の感情(驚くほど共感できる)

ChatGPTは、私たち人間が感じる複雑な感情の配列を捉え、それに対して新しい言葉を作り出すことにおいて、巧みな能力を持って...

機械学習

チューリングのミル:AIスーパーコンピューターが英国の経済エンジンを加速

産業革命の発祥地であるイギリスが、次なる革命に巨額な投資を行うことを発表しました。 イギリス政府は、世界最速のAIスパー...

機械学習

Google AIは、アクティブノイズキャンセリング(ANC)ヘッドフォンのための人工知能搭載の革新的な心臓モニタリングモダリティである音響脈波計(APG)を導入します

コンシューマーエレクトロニクスと健康技術の分野において、活発なノイズキャンセリング(ANC)ウェアラブルに健康モニタリン...

機械学習

M42がMed42を導入:医療知識へのアクセス拡大のためのオープンアクセスクリニカル大規模言語モデル(LLM)

M42ヘルスは、アブダビ、UAEに拠点を置き、有望な新しいオープンアクセスの臨床大規模言語モデルであるMed42を発表しました。...