ソウル国立大学の研究者たちは、ディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成において、画期的なAI手法であるLucidDreamerを紹介します

ソウル国立大学の研究者が紹介するLucidDreamer:画期的なAI手法によるディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成

商業的で混合現実プラットフォームの開発と、3Dグラフィックス技術の急速な進歩により、高品質な3Dシーンの作成はコンピュータビジョンの主要な課題の一つとなっています。これには、任意の入力テキスト、RGB、RGBD画像などをリアルな多様な3Dシナリオに変換する能力が求められます。3Dスキャンに基づく訓練データの制約により、ボクセル、ポイントクラウド、暗黙的なニューラル表現を使用して直接3Dオブジェクトとシーンを構築しようとする試みはあったものの、制限された多様性と品質を示しました。Stable Diffusionのような事前訓練された画像生成拡散モデルを使用して、多様な優れた3Dシナリオを生成するアプローチが問題の解決策の一つです。このような巨大なモデルは、大量の訓練セットから得られるデータ駆動型の知識に基づいて信じられる画像を生成しますが、生成される画像間の多視点の一貫性を保証することはできません。

ソウル大学の研究チームは、この論文で「LucidDreamer」というパイプラインを紹介しています。これは、テキスト、RGB、RGBDなどのさまざまな種類の入力から、3Dガウススプラッティングと安定した拡散を使用して高品質な3Dシナリオを生成するために交互に繰り返される「Dreaming」と「Alignment」という2つのステップを提供します。「LucidDreamer」パイプラインを使用して、1つの大きなポイントクラウドを作成します。2つのプロセスを開始する前に、元の画像と一致する深度マップで初期のポイントクラウドを作成します。幾何学的に一貫した画像を作成し、それらを三次元空間に投影することは、夢の体験の一部です。新しいカメラ座標上の可視ポイントクラウド領域を新しいカメラ平面に投影する前に、研究チームはカメラを事前に定義されたカメラ軌跡に沿って移動させます。次に、投影された画像はStable Diffusionベースのインペインティングネットワークに送られ、画像を使用してアイデア全体を作成します。インペインティングされた画像と予測された深度マップを3D空間に持ち上げることにより、新しい3Dポイントのコレクションが作成されます。次に、新しいポイントの位置を3D空間でゆっくりと移動させることにより、提案されたアライメント技術が現在のポイントクラウドにスムーズに結合します。以上の手順を十分な回数行った結果得られる巨大なポイントクラウドを、Gaussian splatsの最適化のためのSfMポイントの開始点として使用します。

3Dガウススプラッティングの連続的な表現により、ポイントクラウド内の深度差によるギャップがなくなり、より写真のような3Dシナリオを表示することができます。図1は、シンプルなLucidDreamerテクニックと共に3D生成の結果を示しています。現行のモデルと比較して、LucidDreamerは非常に現実的で驚くほどの結果を示します。研究チームによると、ScanNet、NYUDepth、Stable Diffusionの画像を条件とした作成された3Dシーンを比較すると、すべてのデータセットでより良い視覚効果が見られます。

図1:研究チームは、テキスト、RGB、RGBDなどの入力タイプから高品質で多視点一貫の3Dシナリオを生成するための基本的なフレームワーク「LucidDreamer」を作成します。RGBD画像を持ち上げて最初のポイントクラウドを生成した後、LucidDreamerはアライメントとドリーミングの2つのプロセスを繰り返してワールドモデルを成長させます。Gaussian splattingの表現を最適化することで、3Dシーンが完成します。

彼らのモデルは、現実的、アニメ、レゴ、屋外/屋内など、さまざまなジャンルの3Dシナリオを作成できます。そのコンセプトは多くのドメインをサポートし、複数の入力条件を同時に使用することができます。たとえば、テキストに基づいて3Dシーンを作成し、画像を追加することができます。これにより、テキストだけから意図したシーンを完全に作成する際の困難が解消され、大量のサンプルを作成する必要もありません。さらに、彼らの方法では、3D空間の作成中に入力条件を変更することができます。これらの機能は、さまざまな3D設定を構築する機会を提供することで創造性を刺激します。

以下は彼らがまとめて行った貢献です。

• 研究チームはLucidDreamerを提案します。これはドメインに依存しない高品質な3Dシーン制作ツールであり、明示的な3D表現、深度推定、安定した拡散を使用して、3Dシーン合成のドメイン一般化を改善します。

• 彼らのDreamingアプローチは、各画像生成のための幾何学的ガイドラインとしてポイントクラウドを生成し、Stable Diffusionから複数の視点の画像を生成します。生成された写真は彼らのAlignment技術を用いて巧みに統合され、一貫した3Dシーンが作成されます。

• 彼らの手法により、複数の入力タイプ(テキスト、RGB、RGBD)をサポートし、複数の入力を同時に使用したり、生成プロセス中に入力を変更したりすることで、ユーザーはさまざまな方法で3Dシーンを生成できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIの進歩を促進するための医療データのラベリングをゲーム化する

MITの卒業生が運営するプラットフォームは、AI企業のために医療データに対してクラウドの知恵を活用してラベルを付けます

機械学習

LLMのトレーニングの異なる方法

大規模言語モデル(LLM)の領域では、さまざまなトレーニングメカニズムがあり、異なる手段、要件、目標がありますそれぞれが...

データサイエンス

私が通常のRDBMSをベクトルデータベースに変換して埋め込みを保存する方法

この記事では、一般的なRDBMSを完全に機能したベクトルデータベースに変換して、GenerativeAIアプリケーションの開発に埋め込...

AI研究

KAISTとGoogleの研究者は、コラボレーションスコア蒸留(CSD)を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です

テキストから画像への拡散モデルは、数十億の画像テキストペアと効果的なトポロジーを用いて構築されており、入力として与え...

AI研究

「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸...

機械学習

マイクロソフトAIがLLMLinguaを発表:大型言語モデル(LLM)の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

大規模言語モデル(LLM)は、その高い一般化能力と推論能力により、人工知能(AI)コミュニティを大きく押し上げています。こ...