このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています
This AI paper proposes injecting a 3D world into a large-scale language model and introducing a new family of 3D-LLMs.
ここ数年、大型言語モデル(LLM)(GPT4など)の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスクに優れています。最近の研究では、2Dビジュアルを理解し意味を理解することができる新しいタイプのマルチモーダルLLM(FlamingoやBLIP-2など)のための画像や動画の整合性に焦点を当てています。しかし、これらのモデルは、空間的な関連性、アフォーダンス、物理、相互作用など、現実の3D物理世界に存在するより深い概念とは異なるものに基づいているため、3D状況を理解し、その理解に基づいて推論と計画を行うことができるSF映画に登場するロボットのヘルパーと比較して無意味です。そのため、3Dワールドを大型言語モデルに組み込み、入力としてさまざまな3D関連のタスクを処理できる新しいクラスの3D-LLMを導入することを提案しています。
3D表現を使用すると、LLMは次の2つの点で利益を得ることができます:(1)エピソード的な部分的な観察ではなく、全体的な3D表現に完全なシーンの長期的なメモリを保存できます。(2)3D表現からの推論により、アフォーダンスや空間的なリンケージなどの3Dの特徴を推論することができ、言語または2D画像ベースのLLMよりも遥かに進んだ能力を持つことができます。提案された3D-LLMを訓練するためには、データ収集が重要な障壁となります。3Dデータの不足により、インターネット上の2D画像とテキストデータの豊富さとは対照的に、3Dデータを基にした基礎モデルを作成することが困難です。さらに困難なのは、言語的な説明と組み合わせた3Dデータを取得することです。
この問題を解決するために、彼らは言語とリンクされた大量の3Dデータを提供する特異なデータ生成プロセスのコレクションを提案しています。彼らは、3Dデータと言語の間のコミュニケーションにChatGPTを使用した3つの効果的なプロンプティングプロセスを提供しています。図1に示されているように、これにより、3Dキャプション、デンスキャプション、3D質問応答、3Dタスク分解、3Dグラウンディング、3D支援対話、ナビゲーションなど、さまざまなタスクに関する情報を含む30万の3D言語データを取得できます。次の困難は、3D-LLMに対応する有用な3D属性を見つけることです。一つの方法は、CLIPに似た対比学習パラダイムを使用して、言語と2D画像を整列させることで、3Dエンコーダをゼロから訓練することです。ただし、このアプローチは多くのデータ、時間、およびGPUリソースを使用します。異なる視点から、アイデアフュージョンや3D-CLRなどの最近の取り組みでは、2Dマルチビュー写真から3D特徴を構築しています。これに対応するために、2D事前訓練済みの特徴から3D特徴を作成する3D特徴エクストラクタを使用しています。
- マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム
- 「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」
- 韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています
最近のビジュアル言語モデル(BLIP-2やFlamingoなど)は、2D事前訓練済みCLIP特徴を使用してVLMを訓練することを始めました。彼らは、2D VLMをバックボーンとして簡単に使用し、抽出された3D特徴を効果的に3D-LLMを訓練するための入力とすることができます。 3D LLMが情報の基になる3D空間的な感覚を持つことが予想される事実は、伝統的なLLMや2D VLMとは異なる重要な点であります。そのため、UCLA、上海交通大学、中国南方科技大学、イリノイ大学アーバナ・シャンペーン校、MIT、UMass AmherstおよびMIT-IBM Watson AI Labの研究者は、言語と地理的な場所を結び付ける3Dローカリゼーションシステムを作成しました。彼らは、取得した3D特徴に3D位置埋め込みを追加して、空間情報をより効果的にエンコードします。さらに、3D-LLMにいくつかの位置トークンを追加します。これにより、特定の景色の中の特定のアイテムの言語的な説明に基づいて、位置トークンを生成することにより、ローカリゼーションを訓練することができます。これにより、3D-LLMは3D空間データをより効果的に記録することができます。
結論として、彼らの論文は以下の貢献を行っています:
•彼らは、3Dポイントの入力を使用して、3D関連のタスクを処理できる新しい3Dベースの大規模言語モデル(3D-LLMs)の新しいファミリーを提示しています。彼らは、従来のまたは2D-LLMsの範囲外の活動、例えば全体のシーンの知識、3D空間の接続、利用可能性、および3D計画を含むものに重点を置いています。
•彼らは、3D言語の多くのデータを生成できる革新的なデータ収集パイプラインを作成しました。パイプラインに基づいて、彼らは3D関連の幅広い活動(3Dの基盤、密なキャプション、3Dの質問応答、タスク分解、3D支援対話、ナビゲーションなど)をカバーする30万以上の3D言語データポイントを含むデータセットを収集しました。
•彼らは、レンダリングされた複数の視点の画像を取り込み、有用な3D特徴を抽出する3D特徴抽出器を使用しています。彼らは、2Dの事前学習済みVLMを使用してトレーニングシステムを構築しました。3D-LLMsをより良い3D空間情報の収集に向けてトレーニングするために、3Dの位置推定手法を追加しました。
•実験では、ScanQAという保留評価データセットの方が最先端のベースラインよりも優れた結果を示しています。特に、3D-LLMsはベースライン(例:BLEU-1で9%)よりも優れたパフォーマンスを発揮しています。彼らの手法は、3Dキャプション作成、タスク作成、および3D支援対話のための保留データセットを使用したテストで2D VLMsを上回っています。質的な調査では、彼らの手法がさまざまなジョブをより詳細に処理できることが示されています。
•彼らは、今後の研究での使用のために、3D-LLMs、3D言語データセット、およびデータセットの言語に整列した3D特徴を利用可能にしたいと考えています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」
- 「デバイス内AIの強化 QualcommとMetaがLlama 2テクノロジーと共同開発」
- マイクロソフトが「TypeChat」をリリース:型を使用して自然言語インターフェースを簡単に構築できるAIライブラリ
- 「テキストゥアをご紹介します:3Dメッシュのテキストゥアリングのための新しい人工知能(AI)フレームワーク」
- 「Amazon Transcribe Toxicity Detectionを使用して、会話中の有害な言語をフラグ付けします」
- 「AWSは、人工知能、機械学習、生成AIのガイドを提供しており、AI戦略を計画するための新しい情報を提供しています」
- 「グラフ注意ネットワーク論文のイラストとPyTorchによる実装の説明」