「一貫性への超克:このAIモデルは、頑強なテキストから3D生成のための拡散モデルの3D認識を教える」

Overcoming Consistency This AI model teaches 3D recognition for diffusion models in 3D generation from robust text.

テキストから画像へのモデルは最近急速に成長しており、その進歩のほとんどはテキストから画像へのモデルにあります。これらのモデルは与えられたテキストのプロンプトを使用して写真のようなリアルな画像を生成することができます。

画像生成はこの分野の包括的な研究の一部です。重要な側面ではありますが、さまざまなアプリケーションで重要な役割を果たす他のテキストからXへのモデルも存在します。例えば、テキストからビデオへのモデルは、与えられたテキストのプロンプトに基づいてリアルなビデオを生成することを目指しています。これらのモデルはコンテンツの準備プロセスを劇的に加速することができます。

一方、テキストから3D生成はコンピュータビジョンとグラフィックスの分野で重要な技術として登場しています。まだ初期段階ではありますが、テキスト入力からリアルな3Dモデルを生成する能力は、学術研究者や業界のプロフェッショナルから大きな関心を集めています。この技術はさまざまな産業を革新する潜在能力を持ち、複数の学問領域の専門家がその継続的な開発を注視しています。

Neural Radiance Fields(NeRF)は、一連の2D画像またはまばらな3Dポイントから複雑な3Dシーンの高品質なレンダリングを可能にする最近導入された手法です。テキストから3DモデルとNeRFを組み合わせるためのいくつかの手法が提案されていますが、これらはしばしば歪みやアーティファクトを引き起こし、テキストのプロンプトやランダムシードに対して敏感です。

特に、3Dの非整合性の問題は、レンダリングされた3Dシーンが各視点で前面のビューに属する幾何学的特徴を複数回生成し、重い歪みが生じる一般的な問題です。この問題は、2D拡散モデルが3D情報、特にカメラの位置に関する認識の欠如によるものです。

では、テキストから3DモデルをNeRFの進化と組み合わせてリアルな3Dレンダリングを得る方法があったらどうでしょうか?それが3DFuseです。

3DFuseパイプラインの概要。出典: https://ku-cvlab.github.io/3DFuse/

3DFuseは、3D認識を持つ事前学習済みの2D拡散モデルを組み合わせる中間的なアプローチであり、3D整合性のあるNeRF最適化に適したものにします。これにより、3D認識が事前学習済みの2D拡散モデルに注入されます。

3DFuseは、生成されたシーンの意味的な特定を高速化するために意味コードのサンプリングから始めます。この意味コードは実際には生成された画像と与えられたテキストのプロンプトです。このステップが完了すると、3DFuseの整合性注入モジュールはこの意味コードを取り入れ、与えられた視点のために粗い3Dジオメトリを投影して視点固有の深度マップを取得します。これには既存のモデルを使用します。深度マップと意味コードは、拡散モデルに3D情報を注入するために使用されます。

3DFuseの概要。出典: https://ku-cvlab.github.io/3DFuse/

ここでの問題は、予測された3Dジオメトリがエラーを起こしやすく、生成された3Dモデルの品質に影響を与える可能性があることです。そのため、パイプラインのさらなる進行前にこれを処理する必要があります。この問題を解決するために、3DFuseは問題のある深度情報を修正する方法を暗黙的に知っている疎な深度インジェクタを導入しています。

3D一貫性のある画像を生成する拡散モデルのスコアを蒸留することにより、3DFuseは視点一貫性のあるテキストから3D生成を安定的に最適化します。このフレームワークは、生成品質と幾何学的一貫性の点で、以前の研究に比べて大幅な改善を実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」

人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施す...

機械学習

Google AIがMedLMを導入:医療業界の利用事例に特化したファミリー型基盤モデル

Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Go...

データサイエンス

「データと人工知能を利用して、国連の持続可能な開発目標への進捗を追跡する」

「データコモンズは、SDGsへの進捗状況を追跡するために、国連とONEと協力しています」

人工知能

「コンプライアンス自動化標準ソリューション(COMPASS), パート1 パーソナと役割」

「これは私たちのシリーズの最初の部分であり、組織やクラウドプロバイダが連続的なコンプライアンスを達成しようとする際に...

AIニュース

Googleはチャットボットの使用について従業員に警告、ここにその理由があります

Googleの親会社であるAlphabet Inc.は、ChatGPTや自社製品であるBardを含むチャットボットの使用について従業員に注意を促し...

機械学習

「Declarai、FastAPI、およびStreamlitを使用してLLMチャットアプリケーションを展開する」

2022年10月、私が大規模言語モデル(LLM)の実験を始めたとき、最初の傾向はテキストの補完、分類、NER、およびその他のNLP関...