「一貫性への超克:このAIモデルは、頑強なテキストから3D生成のための拡散モデルの3D認識を教える」

Overcoming Consistency This AI model teaches 3D recognition for diffusion models in 3D generation from robust text.

テキストから画像へのモデルは最近急速に成長しており、その進歩のほとんどはテキストから画像へのモデルにあります。これらのモデルは与えられたテキストのプロンプトを使用して写真のようなリアルな画像を生成することができます。

画像生成はこの分野の包括的な研究の一部です。重要な側面ではありますが、さまざまなアプリケーションで重要な役割を果たす他のテキストからXへのモデルも存在します。例えば、テキストからビデオへのモデルは、与えられたテキストのプロンプトに基づいてリアルなビデオを生成することを目指しています。これらのモデルはコンテンツの準備プロセスを劇的に加速することができます。

一方、テキストから3D生成はコンピュータビジョンとグラフィックスの分野で重要な技術として登場しています。まだ初期段階ではありますが、テキスト入力からリアルな3Dモデルを生成する能力は、学術研究者や業界のプロフェッショナルから大きな関心を集めています。この技術はさまざまな産業を革新する潜在能力を持ち、複数の学問領域の専門家がその継続的な開発を注視しています。

Neural Radiance Fields(NeRF)は、一連の2D画像またはまばらな3Dポイントから複雑な3Dシーンの高品質なレンダリングを可能にする最近導入された手法です。テキストから3DモデルとNeRFを組み合わせるためのいくつかの手法が提案されていますが、これらはしばしば歪みやアーティファクトを引き起こし、テキストのプロンプトやランダムシードに対して敏感です。

特に、3Dの非整合性の問題は、レンダリングされた3Dシーンが各視点で前面のビューに属する幾何学的特徴を複数回生成し、重い歪みが生じる一般的な問題です。この問題は、2D拡散モデルが3D情報、特にカメラの位置に関する認識の欠如によるものです。

では、テキストから3DモデルをNeRFの進化と組み合わせてリアルな3Dレンダリングを得る方法があったらどうでしょうか?それが3DFuseです。

3DFuseパイプラインの概要。出典: https://ku-cvlab.github.io/3DFuse/

3DFuseは、3D認識を持つ事前学習済みの2D拡散モデルを組み合わせる中間的なアプローチであり、3D整合性のあるNeRF最適化に適したものにします。これにより、3D認識が事前学習済みの2D拡散モデルに注入されます。

3DFuseは、生成されたシーンの意味的な特定を高速化するために意味コードのサンプリングから始めます。この意味コードは実際には生成された画像と与えられたテキストのプロンプトです。このステップが完了すると、3DFuseの整合性注入モジュールはこの意味コードを取り入れ、与えられた視点のために粗い3Dジオメトリを投影して視点固有の深度マップを取得します。これには既存のモデルを使用します。深度マップと意味コードは、拡散モデルに3D情報を注入するために使用されます。

3DFuseの概要。出典: https://ku-cvlab.github.io/3DFuse/

ここでの問題は、予測された3Dジオメトリがエラーを起こしやすく、生成された3Dモデルの品質に影響を与える可能性があることです。そのため、パイプラインのさらなる進行前にこれを処理する必要があります。この問題を解決するために、3DFuseは問題のある深度情報を修正する方法を暗黙的に知っている疎な深度インジェクタを導入しています。

3D一貫性のある画像を生成する拡散モデルのスコアを蒸留することにより、3DFuseは視点一貫性のあるテキストから3D生成を安定的に最適化します。このフレームワークは、生成品質と幾何学的一貫性の点で、以前の研究に比べて大幅な改善を実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

レオナルドAI:Midjourneyの新たな競合相手

レオナルドAIは、ミッドジャーニーがこれまで築いてきた地位に挑戦する注目すべき代替手段として徐々に浮上しています

データサイエンス

「クレジットカードの不履行データセットのバイアスの検証と検出」

このセクションでは、クレジットカードのデフォルトデータセットにおけるバイアスについて探求し、若者と高齢者の借り手の間...

機械学習

「Javaを使用した脳コンピュータインターフェース(BCI)アプリケーションの開発:開発者のためのガイド」

BCIsは脳デバイスの通信を可能にし、Javaはライブラリを使用して開発を支援しています課題には信号の品質と倫理が含まれます

AIニュース

「類推的な & ステップバック型プロンプティング:Google DeepMindの最新の進歩に潜入する」

「Google DeepMindの最新研究による2つの新しいプロンプト工学技術を探求し、アナロジカルプロンプティングとステップバック...

機械学習

Japanese AI規制- 仮定はありませんか?それとも何もしない?

バイアスは、任意のモデルに関して規制の対象となる考慮事項の一つです生成AIは、この考えを再び主流に押し上げました私の経...

AIニュース

「GPTBotの公開:OpenAIがウェブのクロールに踏み出す大胆な一手」

デジタル革新の渦中で、OpenAIはGPTBotというウェブクローラーをリリースすることで注目を浴びています。この取り組みはAIの...