ソウル国立大学の研究者たちは、ディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成において、画期的なAI手法であるLucidDreamerを紹介します

ソウル国立大学の研究者が紹介するLucidDreamer:画期的なAI手法によるディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成

商業的で混合現実プラットフォームの開発と、3Dグラフィックス技術の急速な進歩により、高品質な3Dシーンの作成はコンピュータビジョンの主要な課題の一つとなっています。これには、任意の入力テキスト、RGB、RGBD画像などをリアルな多様な3Dシナリオに変換する能力が求められます。3Dスキャンに基づく訓練データの制約により、ボクセル、ポイントクラウド、暗黙的なニューラル表現を使用して直接3Dオブジェクトとシーンを構築しようとする試みはあったものの、制限された多様性と品質を示しました。Stable Diffusionのような事前訓練された画像生成拡散モデルを使用して、多様な優れた3Dシナリオを生成するアプローチが問題の解決策の一つです。このような巨大なモデルは、大量の訓練セットから得られるデータ駆動型の知識に基づいて信じられる画像を生成しますが、生成される画像間の多視点の一貫性を保証することはできません。

ソウル大学の研究チームは、この論文で「LucidDreamer」というパイプラインを紹介しています。これは、テキスト、RGB、RGBDなどのさまざまな種類の入力から、3Dガウススプラッティングと安定した拡散を使用して高品質な3Dシナリオを生成するために交互に繰り返される「Dreaming」と「Alignment」という2つのステップを提供します。「LucidDreamer」パイプラインを使用して、1つの大きなポイントクラウドを作成します。2つのプロセスを開始する前に、元の画像と一致する深度マップで初期のポイントクラウドを作成します。幾何学的に一貫した画像を作成し、それらを三次元空間に投影することは、夢の体験の一部です。新しいカメラ座標上の可視ポイントクラウド領域を新しいカメラ平面に投影する前に、研究チームはカメラを事前に定義されたカメラ軌跡に沿って移動させます。次に、投影された画像はStable Diffusionベースのインペインティングネットワークに送られ、画像を使用してアイデア全体を作成します。インペインティングされた画像と予測された深度マップを3D空間に持ち上げることにより、新しい3Dポイントのコレクションが作成されます。次に、新しいポイントの位置を3D空間でゆっくりと移動させることにより、提案されたアライメント技術が現在のポイントクラウドにスムーズに結合します。以上の手順を十分な回数行った結果得られる巨大なポイントクラウドを、Gaussian splatsの最適化のためのSfMポイントの開始点として使用します。

3Dガウススプラッティングの連続的な表現により、ポイントクラウド内の深度差によるギャップがなくなり、より写真のような3Dシナリオを表示することができます。図1は、シンプルなLucidDreamerテクニックと共に3D生成の結果を示しています。現行のモデルと比較して、LucidDreamerは非常に現実的で驚くほどの結果を示します。研究チームによると、ScanNet、NYUDepth、Stable Diffusionの画像を条件とした作成された3Dシーンを比較すると、すべてのデータセットでより良い視覚効果が見られます。

図1:研究チームは、テキスト、RGB、RGBDなどの入力タイプから高品質で多視点一貫の3Dシナリオを生成するための基本的なフレームワーク「LucidDreamer」を作成します。RGBD画像を持ち上げて最初のポイントクラウドを生成した後、LucidDreamerはアライメントとドリーミングの2つのプロセスを繰り返してワールドモデルを成長させます。Gaussian splattingの表現を最適化することで、3Dシーンが完成します。

彼らのモデルは、現実的、アニメ、レゴ、屋外/屋内など、さまざまなジャンルの3Dシナリオを作成できます。そのコンセプトは多くのドメインをサポートし、複数の入力条件を同時に使用することができます。たとえば、テキストに基づいて3Dシーンを作成し、画像を追加することができます。これにより、テキストだけから意図したシーンを完全に作成する際の困難が解消され、大量のサンプルを作成する必要もありません。さらに、彼らの方法では、3D空間の作成中に入力条件を変更することができます。これらの機能は、さまざまな3D設定を構築する機会を提供することで創造性を刺激します。

以下は彼らがまとめて行った貢献です。

• 研究チームはLucidDreamerを提案します。これはドメインに依存しない高品質な3Dシーン制作ツールであり、明示的な3D表現、深度推定、安定した拡散を使用して、3Dシーン合成のドメイン一般化を改善します。

• 彼らのDreamingアプローチは、各画像生成のための幾何学的ガイドラインとしてポイントクラウドを生成し、Stable Diffusionから複数の視点の画像を生成します。生成された写真は彼らのAlignment技術を用いて巧みに統合され、一貫した3Dシーンが作成されます。

• 彼らの手法により、複数の入力タイプ(テキスト、RGB、RGBD)をサポートし、複数の入力を同時に使用したり、生成プロセス中に入力を変更したりすることで、ユーザーはさまざまな方法で3Dシーンを生成できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google AIがFlan-T5をオープンソース化 NLPタスクにおいてテキスト対テキストアプローチを使用するトランスフォーマーベースの言語モデル

大規模な言語モデル、例えばPaLM、Chinchilla、およびChatGPTは、自然言語処理(NLP)のタスクを実行する新たな可能性を開い...

機械学習

トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランス...

機械学習

Reka AIは、視覚センサと聴覚センサを備えたマルチモーダル言語アシスタントであるYasa-1を紹介しますYasa-1は、コードの実行を通じてアクションを起こすことができます

人工知能の進化する景色の中で、より高度で多機能な言語アシスタントの需要は着実に増加しています。課題は、テキストを完全...

機械学習

大規模言語モデル(LLM)の調査

イントロダクション 大規模言語モデル(LLM)の登場により、技術の進歩の風景は劇的に変容しました。これらのモデルは、洗練...

機械学習

マシンラーニングにとっての「最悪のシナリオを防ぐ競争」

A.I.企業は、児童性的虐待物資の作成や流通を阻止する面で優位に立っています彼らは、ソーシャルメディア企業が失敗したこと...

データサイエンス

GPTと人間の心理学

GPTと人間の心理学との類推を行うことで、私たちは生成型AIの出力を促進する方法を理解することができます