「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」

『SceneTexのご紹介:高品質でスタイル一貫性のある屋内シーンのテクスチャ生成に革新的なAI手法を使用』

高品質の3Dコンテンツ合成は、自動運転、ロボットシミュレーション、ゲーム、映画製作、将来のVR / ARシチュエーションなど、多くのアプリケーションにとって重要かつ困難な問題です。 3Dジオメトリ生成のトピックは、3Dコンテンツデータセットの利用可能性により、コンピュータビジョンとグラフィックスコミュニティからの研究の関心の高まりを見てきました。 3Dジオメトリモデリングは長い道のりを歩んできましたが、アイテムのルックスやテクスチャを作成するには、依然として多くの人的労働が必要です。 開発と編集にはかなりの時間がかかり、Blenderなどのプログラムを使用した3Dモデリングの経験が求められます。

そのため、人間の技能への高い需要と関連するコストは、自律的なテクスチャデザインと拡張が完全な産業化に達することを妨げてきました。 テキストから3D作成の分野では、特に事前定義された形態のテクスチャ合成において、最新の2D拡散モデルの発展を利用して大きな進展がありました。 Text2TexとLatent-Paintの2つの画期的な作品は、高品質のオブジェクトの外観を生み出し、入力プロンプトから高品質なテクスチャ合成を可能にしました。 これらのアプローチは、単一のアイテムに対して興味深い結果を生み出しますが、シーンのテクスチャを生成するためにスケールアップすることはまだいくつかの困難をもたらします。

一方、2Dビューを3Dオブジェクト表面に逐次的に変形する自己回帰アルゴリズムでは、テクスチャの継ぎ目、蓄積されたアーティファクト、ループクロージャの問題などが一般的な問題です。 画像全体でスタイルの一貫性を保つことは、各オブジェクトごとにテクスチャが存在する場合には難しいです。 逆に、スコア蒸留ベースの方法を使用して低解像度の潜在空間でテクスチャ最適化が行われるため、誤ったジオメトリの詳細とかすんだRGBテクスチャが生じる場合があります。 したがって、従来のテキスト駆動型アプローチでは、高品質の3Dシーンテクスチャを生成することはできません。

ミュンヘン工科大学とSnap Researchの研究チームは、シーンテクスという独自の設計を提案し、深度から画像への拡散事前知識を使用して、内部シーンメッシュの高品質かつスタイルの一貫性のあるテクスチャを生成することで、上記の問題を克服します。 研究チームは、テクスチャの作成を既存の技術とは異なり、RGB空間でテクスチャの最適化課題としてフレーム化するという独自の戦略を採用しています。 基本的に、研究グループは、メッシュの外観を微妙に描写するための多解像度テクスチャフィールドを導入します。 研究チームは、多解像度テクスチャを使用して、テクスチャの詳細を正確に描写するために複数のサイズでテクスチャ要素を保持します。 その結果、彼らの設計では、低周波数と高周波数で適応的に外観情報を学習することができます。 研究チームは、自己遮蔽によるスタイルの不整合を軽減するためにクロスアテンションデコーダを使用し、作成されたテクスチャのスタイルの一貫性を確保します。

具体的には、各デコードされたRGB値は、各オブジェクトに分散されたプリサンプルされた参照面の位置と相互参照することで生成されます。 各可視場所が全体のインスタンスルックに対してグローバルな参照を受けるため、研究チームは各モデル内でグローバルなスタイルの一貫性をさらに保証することができます。 研究チームは、SceneTexが言語信号に基づいて内部シーンの正確な柔軟なテクスチャ作成を可能にすることを示しています。 研究チームは、総合的な試験を通じて、SceneTexにおいてスタイルと幾何学的な一貫性が高く評価されることを示しています。 3DFRONTデータセットの一部に対するユーザースタディに基づいて、提案された手法は、CLIPスコアやインセプションスコアなどの2Dメトリックに関して、他のテキスト駆動型テクスチャ作成アルゴリズムよりも優れた性能を発揮します。

研究チームの技術的貢献は以下の通りです:

• 深度から画像への拡散事前知識を使用して、研究チームは高品質なシーンテクスチャを高解像度で生成するための独自のフレームワークを作成します。

• 研究チームは、多チャンネルのテクスチャで豊富なテクスチャ特徴を正確に捉えるため、暗黙のテクスチャフィールドを提案し、オブジェクトの外観を複数のスケールで記録します。

• 以前の合成技術と比較して、研究チームは3D-FRONTシーンにおいて、クロスアテンションテクスチャデコーダを使用してより美しいスタイルの一貫性のあるテクスチャを生成します。各インスタンスに対するグローバルなスタイルの一貫性を保証します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

オープンAIのファンクションコーリング入門

Forbesによると、AI市場は2030年までに$1,811.8 billionに到達すると予想されています。Davinci、GPT Turbo、GPT Turbo 3.5、...

AI研究

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変さ...

AIニュース

「GPT-5がOpenAIによって商標登録されました:それがChatGPTの未来について何を示しているのでしょうか?」

「GPT-5とは何ですか?また、OpenAIがなぜそれに商標を取得したのでしょうか?人工一般知能(AGI)に向けた次のステップとな...

機械学習

最終的なDXAネーション

人工知能(AI)と機械学習(ML)は、医療を革新し、私たちを精密医療の時代に導いていますAI健康モデルを開発する動機は、死...

データサイエンス

「ScyllaDB NoSQLを使用したAI/MLフィーチャーストアの構築方法」

この記事では、AI/MLフィーチャーストアの基礎について掘り下げ、ScyllaDB NoSQLを使用して自分自身のフィーチャーストアを始...