「一貫性への超克:このAIモデルは、頑強なテキストから3D生成のための拡散モデルの3D認識を教える」

Overcoming Consistency This AI model teaches 3D recognition for diffusion models in 3D generation from robust text.

テキストから画像へのモデルは最近急速に成長しており、その進歩のほとんどはテキストから画像へのモデルにあります。これらのモデルは与えられたテキストのプロンプトを使用して写真のようなリアルな画像を生成することができます。

画像生成はこの分野の包括的な研究の一部です。重要な側面ではありますが、さまざまなアプリケーションで重要な役割を果たす他のテキストからXへのモデルも存在します。例えば、テキストからビデオへのモデルは、与えられたテキストのプロンプトに基づいてリアルなビデオを生成することを目指しています。これらのモデルはコンテンツの準備プロセスを劇的に加速することができます。

一方、テキストから3D生成はコンピュータビジョンとグラフィックスの分野で重要な技術として登場しています。まだ初期段階ではありますが、テキスト入力からリアルな3Dモデルを生成する能力は、学術研究者や業界のプロフェッショナルから大きな関心を集めています。この技術はさまざまな産業を革新する潜在能力を持ち、複数の学問領域の専門家がその継続的な開発を注視しています。

Neural Radiance Fields(NeRF)は、一連の2D画像またはまばらな3Dポイントから複雑な3Dシーンの高品質なレンダリングを可能にする最近導入された手法です。テキストから3DモデルとNeRFを組み合わせるためのいくつかの手法が提案されていますが、これらはしばしば歪みやアーティファクトを引き起こし、テキストのプロンプトやランダムシードに対して敏感です。

特に、3Dの非整合性の問題は、レンダリングされた3Dシーンが各視点で前面のビューに属する幾何学的特徴を複数回生成し、重い歪みが生じる一般的な問題です。この問題は、2D拡散モデルが3D情報、特にカメラの位置に関する認識の欠如によるものです。

では、テキストから3DモデルをNeRFの進化と組み合わせてリアルな3Dレンダリングを得る方法があったらどうでしょうか?それが3DFuseです。

3DFuseパイプラインの概要。出典: https://ku-cvlab.github.io/3DFuse/

3DFuseは、3D認識を持つ事前学習済みの2D拡散モデルを組み合わせる中間的なアプローチであり、3D整合性のあるNeRF最適化に適したものにします。これにより、3D認識が事前学習済みの2D拡散モデルに注入されます。

3DFuseは、生成されたシーンの意味的な特定を高速化するために意味コードのサンプリングから始めます。この意味コードは実際には生成された画像と与えられたテキストのプロンプトです。このステップが完了すると、3DFuseの整合性注入モジュールはこの意味コードを取り入れ、与えられた視点のために粗い3Dジオメトリを投影して視点固有の深度マップを取得します。これには既存のモデルを使用します。深度マップと意味コードは、拡散モデルに3D情報を注入するために使用されます。

3DFuseの概要。出典: https://ku-cvlab.github.io/3DFuse/

ここでの問題は、予測された3Dジオメトリがエラーを起こしやすく、生成された3Dモデルの品質に影響を与える可能性があることです。そのため、パイプラインのさらなる進行前にこれを処理する必要があります。この問題を解決するために、3DFuseは問題のある深度情報を修正する方法を暗黙的に知っている疎な深度インジェクタを導入しています。

3D一貫性のある画像を生成する拡散モデルのスコアを蒸留することにより、3DFuseは視点一貫性のあるテキストから3D生成を安定的に最適化します。このフレームワークは、生成品質と幾何学的一貫性の点で、以前の研究に比べて大幅な改善を実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

音楽作曲のための変分トランスフォーマー:AIは音楽家を置き換えることができるのか?

導入 音楽の魅力的な世界では、創造性には制約がありません。クラシックの交響曲からモダンなエレクトロニックビートまで、そ...

機械学習

「AIの進化と生成AIへの道のりとその仕組み」

この記事では、AI/MLの基礎、その使用方法、生成AIの進化、Prompt Engineering、およびLangChainについて説明しています

機械学習

「AWSとAccelが「ML Elevate 2023」を立ち上げ、インドのAIスタートアップエコシステムを力強く支援」

Amazon Web Services(AWS)とAccelは、革新的な6週間のアクセラレータープログラム「ML Elevate 2023」を発表しました。この...

データサイエンス

「ベクターデータベースを使用してLLMアプリを作成する方法」

イントロダクション 人工知能の領域では、OpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama、Falcon、GoogleのPalmなど、Lar...

機械学習

インフレクション-2はGoogleのPaLM-2を超える:AI言語モデルのブレークスルー

In a groundbreaking announcement, Inflection AI, the creators of the popular PI AI Personal Assistant, unveiled their...

機械学習

「ウッドペッカーは、言語モデルにおけるAIの精度を革新している方法とは?」

中国の腾讯YouTu Labと中国科学技術大学(USTC)のAI研究者グループが、Multimodal Large Language Models(MLLM)の幻想問題...