ソウル国立大学の研究者たちは、ディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成において、画期的なAI手法であるLucidDreamerを紹介します

ソウル国立大学の研究者が紹介するLucidDreamer:画期的なAI手法によるディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成

商業的で混合現実プラットフォームの開発と、3Dグラフィックス技術の急速な進歩により、高品質な3Dシーンの作成はコンピュータビジョンの主要な課題の一つとなっています。これには、任意の入力テキスト、RGB、RGBD画像などをリアルな多様な3Dシナリオに変換する能力が求められます。3Dスキャンに基づく訓練データの制約により、ボクセル、ポイントクラウド、暗黙的なニューラル表現を使用して直接3Dオブジェクトとシーンを構築しようとする試みはあったものの、制限された多様性と品質を示しました。Stable Diffusionのような事前訓練された画像生成拡散モデルを使用して、多様な優れた3Dシナリオを生成するアプローチが問題の解決策の一つです。このような巨大なモデルは、大量の訓練セットから得られるデータ駆動型の知識に基づいて信じられる画像を生成しますが、生成される画像間の多視点の一貫性を保証することはできません。

ソウル大学の研究チームは、この論文で「LucidDreamer」というパイプラインを紹介しています。これは、テキスト、RGB、RGBDなどのさまざまな種類の入力から、3Dガウススプラッティングと安定した拡散を使用して高品質な3Dシナリオを生成するために交互に繰り返される「Dreaming」と「Alignment」という2つのステップを提供します。「LucidDreamer」パイプラインを使用して、1つの大きなポイントクラウドを作成します。2つのプロセスを開始する前に、元の画像と一致する深度マップで初期のポイントクラウドを作成します。幾何学的に一貫した画像を作成し、それらを三次元空間に投影することは、夢の体験の一部です。新しいカメラ座標上の可視ポイントクラウド領域を新しいカメラ平面に投影する前に、研究チームはカメラを事前に定義されたカメラ軌跡に沿って移動させます。次に、投影された画像はStable Diffusionベースのインペインティングネットワークに送られ、画像を使用してアイデア全体を作成します。インペインティングされた画像と予測された深度マップを3D空間に持ち上げることにより、新しい3Dポイントのコレクションが作成されます。次に、新しいポイントの位置を3D空間でゆっくりと移動させることにより、提案されたアライメント技術が現在のポイントクラウドにスムーズに結合します。以上の手順を十分な回数行った結果得られる巨大なポイントクラウドを、Gaussian splatsの最適化のためのSfMポイントの開始点として使用します。

3Dガウススプラッティングの連続的な表現により、ポイントクラウド内の深度差によるギャップがなくなり、より写真のような3Dシナリオを表示することができます。図1は、シンプルなLucidDreamerテクニックと共に3D生成の結果を示しています。現行のモデルと比較して、LucidDreamerは非常に現実的で驚くほどの結果を示します。研究チームによると、ScanNet、NYUDepth、Stable Diffusionの画像を条件とした作成された3Dシーンを比較すると、すべてのデータセットでより良い視覚効果が見られます。

図1:研究チームは、テキスト、RGB、RGBDなどの入力タイプから高品質で多視点一貫の3Dシナリオを生成するための基本的なフレームワーク「LucidDreamer」を作成します。RGBD画像を持ち上げて最初のポイントクラウドを生成した後、LucidDreamerはアライメントとドリーミングの2つのプロセスを繰り返してワールドモデルを成長させます。Gaussian splattingの表現を最適化することで、3Dシーンが完成します。

彼らのモデルは、現実的、アニメ、レゴ、屋外/屋内など、さまざまなジャンルの3Dシナリオを作成できます。そのコンセプトは多くのドメインをサポートし、複数の入力条件を同時に使用することができます。たとえば、テキストに基づいて3Dシーンを作成し、画像を追加することができます。これにより、テキストだけから意図したシーンを完全に作成する際の困難が解消され、大量のサンプルを作成する必要もありません。さらに、彼らの方法では、3D空間の作成中に入力条件を変更することができます。これらの機能は、さまざまな3D設定を構築する機会を提供することで創造性を刺激します。

以下は彼らがまとめて行った貢献です。

• 研究チームはLucidDreamerを提案します。これはドメインに依存しない高品質な3Dシーン制作ツールであり、明示的な3D表現、深度推定、安定した拡散を使用して、3Dシーン合成のドメイン一般化を改善します。

• 彼らのDreamingアプローチは、各画像生成のための幾何学的ガイドラインとしてポイントクラウドを生成し、Stable Diffusionから複数の視点の画像を生成します。生成された写真は彼らのAlignment技術を用いて巧みに統合され、一貫した3Dシーンが作成されます。

• 彼らの手法により、複数の入力タイプ(テキスト、RGB、RGBD)をサポートし、複数の入力を同時に使用したり、生成プロセス中に入力を変更したりすることで、ユーザーはさまざまな方法で3Dシーンを生成できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

スタンフォード大学とGoogleからのこのAI論文は、生成エージェントを紹介しています生成エージェントは、人間の振る舞いをシミュレートするインタラクティブな計算エージェントです

明らかに、AIボットは高品質かつ流暢な自然言語を生成することができます。長い間、研究者や実践者は、異なる種類の相互作用...

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

機械学習

中国における大量生産自動運転の課題

自律走行は、世界でも最も困難な運転の一つが既に存在する中国では、特に難しい課題です主に3つの要因が関係しています:動的...

データサイエンス

学習トランスフォーマーコード第2部 - GPTを間近で観察

私のプロジェクトの第2部へようこそここでは、TinyStoriesデータセットとnanoGPTを使用して、トランスフォーマーとGPTベース...

人工知能

AIの世界で生き残るにはどうすればいいですか?あなたの仕事は危険にさらされていますか?

あなたの仕事は危険にさらされていますか?これは多くの労働者が悩む質問ですが、最近の解雇の文脈ではありません私が言って...

機械学習

Amazon SageMaker Canvasを使用して、ノーコードの機械学習を活用して、公衆衛生の洞察をより迅速にキャプチャーしましょう

公衆衛生機関は、さまざまな種類の疾病、健康のトレンド、危険因子に関する豊富なデータを保有しています彼らのスタッフは、...