「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」

『SceneTexのご紹介:高品質でスタイル一貫性のある屋内シーンのテクスチャ生成に革新的なAI手法を使用』

高品質の3Dコンテンツ合成は、自動運転、ロボットシミュレーション、ゲーム、映画製作、将来のVR / ARシチュエーションなど、多くのアプリケーションにとって重要かつ困難な問題です。 3Dジオメトリ生成のトピックは、3Dコンテンツデータセットの利用可能性により、コンピュータビジョンとグラフィックスコミュニティからの研究の関心の高まりを見てきました。 3Dジオメトリモデリングは長い道のりを歩んできましたが、アイテムのルックスやテクスチャを作成するには、依然として多くの人的労働が必要です。 開発と編集にはかなりの時間がかかり、Blenderなどのプログラムを使用した3Dモデリングの経験が求められます。

そのため、人間の技能への高い需要と関連するコストは、自律的なテクスチャデザインと拡張が完全な産業化に達することを妨げてきました。 テキストから3D作成の分野では、特に事前定義された形態のテクスチャ合成において、最新の2D拡散モデルの発展を利用して大きな進展がありました。 Text2TexとLatent-Paintの2つの画期的な作品は、高品質のオブジェクトの外観を生み出し、入力プロンプトから高品質なテクスチャ合成を可能にしました。 これらのアプローチは、単一のアイテムに対して興味深い結果を生み出しますが、シーンのテクスチャを生成するためにスケールアップすることはまだいくつかの困難をもたらします。

一方、2Dビューを3Dオブジェクト表面に逐次的に変形する自己回帰アルゴリズムでは、テクスチャの継ぎ目、蓄積されたアーティファクト、ループクロージャの問題などが一般的な問題です。 画像全体でスタイルの一貫性を保つことは、各オブジェクトごとにテクスチャが存在する場合には難しいです。 逆に、スコア蒸留ベースの方法を使用して低解像度の潜在空間でテクスチャ最適化が行われるため、誤ったジオメトリの詳細とかすんだRGBテクスチャが生じる場合があります。 したがって、従来のテキスト駆動型アプローチでは、高品質の3Dシーンテクスチャを生成することはできません。

ミュンヘン工科大学とSnap Researchの研究チームは、シーンテクスという独自の設計を提案し、深度から画像への拡散事前知識を使用して、内部シーンメッシュの高品質かつスタイルの一貫性のあるテクスチャを生成することで、上記の問題を克服します。 研究チームは、テクスチャの作成を既存の技術とは異なり、RGB空間でテクスチャの最適化課題としてフレーム化するという独自の戦略を採用しています。 基本的に、研究グループは、メッシュの外観を微妙に描写するための多解像度テクスチャフィールドを導入します。 研究チームは、多解像度テクスチャを使用して、テクスチャの詳細を正確に描写するために複数のサイズでテクスチャ要素を保持します。 その結果、彼らの設計では、低周波数と高周波数で適応的に外観情報を学習することができます。 研究チームは、自己遮蔽によるスタイルの不整合を軽減するためにクロスアテンションデコーダを使用し、作成されたテクスチャのスタイルの一貫性を確保します。

具体的には、各デコードされたRGB値は、各オブジェクトに分散されたプリサンプルされた参照面の位置と相互参照することで生成されます。 各可視場所が全体のインスタンスルックに対してグローバルな参照を受けるため、研究チームは各モデル内でグローバルなスタイルの一貫性をさらに保証することができます。 研究チームは、SceneTexが言語信号に基づいて内部シーンの正確な柔軟なテクスチャ作成を可能にすることを示しています。 研究チームは、総合的な試験を通じて、SceneTexにおいてスタイルと幾何学的な一貫性が高く評価されることを示しています。 3DFRONTデータセットの一部に対するユーザースタディに基づいて、提案された手法は、CLIPスコアやインセプションスコアなどの2Dメトリックに関して、他のテキスト駆動型テクスチャ作成アルゴリズムよりも優れた性能を発揮します。

研究チームの技術的貢献は以下の通りです:

• 深度から画像への拡散事前知識を使用して、研究チームは高品質なシーンテクスチャを高解像度で生成するための独自のフレームワークを作成します。

• 研究チームは、多チャンネルのテクスチャで豊富なテクスチャ特徴を正確に捉えるため、暗黙のテクスチャフィールドを提案し、オブジェクトの外観を複数のスケールで記録します。

• 以前の合成技術と比較して、研究チームは3D-FRONTシーンにおいて、クロスアテンションテクスチャデコーダを使用してより美しいスタイルの一貫性のあるテクスチャを生成します。各インスタンスに対するグローバルなスタイルの一貫性を保証します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

ユーザーフィードバック - MLモニタリングスタックの欠けている部分

「AIモデルを数ヶ月もかけて実装し、何百万円も投資してみたけれど、誰も使ってくれないことって経験ありますか?採用の課題...

人工知能

「生成型AIのGPT-3.5からGPT-4への移行の道程」

導入 生成型人工知能(AI)領域におけるGPT-3.5からGPT-4への移行は、言語生成と理解の分野での飛躍的な進化を示しています。...

機械学習

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます...

AI研究

メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました

近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射...

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...

人工知能

ミッドジャーニーV5:ミッドジャーニーの最新バージョン

最新のMidjourneyのインカネーションであるV5は、このアート生成人工知能の進化におけるマイルストーンを示しています