「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」

『SceneTexのご紹介:高品質でスタイル一貫性のある屋内シーンのテクスチャ生成に革新的なAI手法を使用』

高品質の3Dコンテンツ合成は、自動運転、ロボットシミュレーション、ゲーム、映画製作、将来のVR / ARシチュエーションなど、多くのアプリケーションにとって重要かつ困難な問題です。 3Dジオメトリ生成のトピックは、3Dコンテンツデータセットの利用可能性により、コンピュータビジョンとグラフィックスコミュニティからの研究の関心の高まりを見てきました。 3Dジオメトリモデリングは長い道のりを歩んできましたが、アイテムのルックスやテクスチャを作成するには、依然として多くの人的労働が必要です。 開発と編集にはかなりの時間がかかり、Blenderなどのプログラムを使用した3Dモデリングの経験が求められます。

そのため、人間の技能への高い需要と関連するコストは、自律的なテクスチャデザインと拡張が完全な産業化に達することを妨げてきました。 テキストから3D作成の分野では、特に事前定義された形態のテクスチャ合成において、最新の2D拡散モデルの発展を利用して大きな進展がありました。 Text2TexとLatent-Paintの2つの画期的な作品は、高品質のオブジェクトの外観を生み出し、入力プロンプトから高品質なテクスチャ合成を可能にしました。 これらのアプローチは、単一のアイテムに対して興味深い結果を生み出しますが、シーンのテクスチャを生成するためにスケールアップすることはまだいくつかの困難をもたらします。

一方、2Dビューを3Dオブジェクト表面に逐次的に変形する自己回帰アルゴリズムでは、テクスチャの継ぎ目、蓄積されたアーティファクト、ループクロージャの問題などが一般的な問題です。 画像全体でスタイルの一貫性を保つことは、各オブジェクトごとにテクスチャが存在する場合には難しいです。 逆に、スコア蒸留ベースの方法を使用して低解像度の潜在空間でテクスチャ最適化が行われるため、誤ったジオメトリの詳細とかすんだRGBテクスチャが生じる場合があります。 したがって、従来のテキスト駆動型アプローチでは、高品質の3Dシーンテクスチャを生成することはできません。

ミュンヘン工科大学とSnap Researchの研究チームは、シーンテクスという独自の設計を提案し、深度から画像への拡散事前知識を使用して、内部シーンメッシュの高品質かつスタイルの一貫性のあるテクスチャを生成することで、上記の問題を克服します。 研究チームは、テクスチャの作成を既存の技術とは異なり、RGB空間でテクスチャの最適化課題としてフレーム化するという独自の戦略を採用しています。 基本的に、研究グループは、メッシュの外観を微妙に描写するための多解像度テクスチャフィールドを導入します。 研究チームは、多解像度テクスチャを使用して、テクスチャの詳細を正確に描写するために複数のサイズでテクスチャ要素を保持します。 その結果、彼らの設計では、低周波数と高周波数で適応的に外観情報を学習することができます。 研究チームは、自己遮蔽によるスタイルの不整合を軽減するためにクロスアテンションデコーダを使用し、作成されたテクスチャのスタイルの一貫性を確保します。

具体的には、各デコードされたRGB値は、各オブジェクトに分散されたプリサンプルされた参照面の位置と相互参照することで生成されます。 各可視場所が全体のインスタンスルックに対してグローバルな参照を受けるため、研究チームは各モデル内でグローバルなスタイルの一貫性をさらに保証することができます。 研究チームは、SceneTexが言語信号に基づいて内部シーンの正確な柔軟なテクスチャ作成を可能にすることを示しています。 研究チームは、総合的な試験を通じて、SceneTexにおいてスタイルと幾何学的な一貫性が高く評価されることを示しています。 3DFRONTデータセットの一部に対するユーザースタディに基づいて、提案された手法は、CLIPスコアやインセプションスコアなどの2Dメトリックに関して、他のテキスト駆動型テクスチャ作成アルゴリズムよりも優れた性能を発揮します。

研究チームの技術的貢献は以下の通りです:

• 深度から画像への拡散事前知識を使用して、研究チームは高品質なシーンテクスチャを高解像度で生成するための独自のフレームワークを作成します。

• 研究チームは、多チャンネルのテクスチャで豊富なテクスチャ特徴を正確に捉えるため、暗黙のテクスチャフィールドを提案し、オブジェクトの外観を複数のスケールで記録します。

• 以前の合成技術と比較して、研究チームは3D-FRONTシーンにおいて、クロスアテンションテクスチャデコーダを使用してより美しいスタイルの一貫性のあるテクスチャを生成します。各インスタンスに対するグローバルなスタイルの一貫性を保証します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

量産自動運転におけるBEVパーセプション

BEVの認識技術は、ここ数年で非常に進歩しました自動運転車の周りの環境を直接認識することができますBEVの認識技術はエンド...

機械学習

このAIペーパーは、東京大学で深層学習を超新星シミュレーションの問題に応用しました

東京大学の研究者チームは、3D-Memory In Memory (3D-MIM) と呼ばれる深層学習モデルを開発しました。このモデルは、超新星(S...

AIニュース

メタが「AudioCraft」を発表:テキストを音声や音楽に変換するためのAIツール

Metaは、Facebook、Instagram、WhatsAppなどのソーシャルメディアプラットフォームを展開しているテックジャイアントであり、...

データサイエンス

AIがセキュリティを向上させる方法

AIはマルウェアの検出、サイバー脅威の特定と対応、機密データの保護、そして重要なインフラストラクチャのセキュリティ向上...

データサイエンス

スコア! チームNVIDIAが推薦システムでトロフィーを獲得しました

5人の機械学習の専門家が4つの大陸に分散し、最先端のレコメンデーションシステムを構築するための激しい競争で3つのタスク全...

人工知能

カートゥーンキャラクターの中間プロンプト

Midjourneyは、芸術的なスキルや背景がなくても、漫画キャラクターを作成するのに役立つ素晴らしいツールです