アドビの研究者たちは、『DMV3D』という新しい3D生成手法を提案していますこの手法は、トランスフォーマーベースの3D大規模再構築モデルを用いて、マルチビューディフュージョンのノイズを除去します

「アドビの研究者が提案する新たな3D生成手法『DMV3D』:トランスフォーマーベースの3D大規模再構築モデルを利用し、マルチビューディフュージョンのノイズを除去」

拡張現実(AR)、仮想現実(VR)、ロボティクス、ゲームにおける3Dアセットの作成には共通の課題が存在します。複雑な3Dアセットの作成プロセスを簡素化する3D拡散モデルの人気が高まっていますが、それには注意が必要です。これらのモデルは、トレーニングのために正確な3Dモデルまたはポイントクラウドへのアクセスが必要であり、実際の画像では課題となる場合があります。さらに、潜在的な3D拡散アプローチは、多様な3Dデータセット上で複雑でノイズの多い潜在空間を生み出すことが多く、高品質なレンダリングが困難な課題となっています。

既存の解決策では、多くの手作業や最適化プロセスが要求されることがよくあります。Adobe ResearchとStanfordの研究者チームは、3D生成プロセスをより迅速で現実的かつジェネリックにする取り組みを行っています。最近の論文では、DMV3Dという新しいアプローチが紹介されており、シングルステージのカテゴリー非依存型拡散モデルです。このモデルは、テキストまたは単一の画像入力条件から3Dニューラルラディアンスフィールド(NeRFs)を生成することができ、3Dオブジェクトを作成するのに必要な時間を大幅に短縮します。

DMV3Dの重要な貢献は、3D生成のためのマルチビュー2D画像拡散モデルを使用した画期的なシングルステージ拡散フレームワークです。彼らはまた、ノイズのないトライプレーンNeRFsをノイズの多いマルチビュー画像から再構築するマルチビューデノイザであるLarge Reconstruction Model(LRM)を導入しました。このモデルは、高品質なテキストから3D生成と単一画像再構築をするための一般的な確率的アプローチを提供し、シングルのA100 GPUでわずか30秒程度の直接モデル推論を実現します。

DMV3Dは、3D NeRFの再構築とレンダリングをデノイザに統合し、直接3D監視をせずに学習された2Dマルチビュー画像拡散モデルを作成します。これにより、潜在空間の拡散およびパーツごとの最適化プロセスに別個の3D NeRFエンコーダを個別にトレーニングする必要がなくなります。研究者たちは、オブジェクトを囲む4つのマルチビュー画像の疎なセットを戦略的に使用し、自己遮蔽の重要性を排除しながら3Dオブジェクトを効果的に表現しています。

大規模なトランスフォーマーモデルを活用することで、研究者たちは疎なビューの3D再構築という困難な課題に取り組んでいます。最新の3D Large Reconstruction Model(LRM)を基に構築されたこのモデルは、拡散プロセスのさまざまなノイズレベルに対応できる革新的なジョイント再構築およびデノイズモデルを導入しています。このモデルは、マルチビュー画像拡散フレームワーク内のマルチビュー画像デノイザとして統合されます。

合成レンダリングと実際のキャプチャを含む大規模なデータセットでトレーニングされたDMV3Dは、シングルのA100 GPUで約30秒でシングルステージ3Dを生成する能力を示しています。また、単一画像による3D再構築でも最先端の結果を達成しています。この研究は、2Dと3Dの生成モデルの領域を結びつけ、3D再構築と生成を統一することで、3Dビジョンとグラフィックスのさまざまな課題に取り組むための基盤モデルの開発の可能性を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DERAに会ってください:対話可能な解決エージェントによる大規模言語モデル補完を強化するためのAIフレームワーク」

「大規模言語モデル」の深層学習は、入力に基づいて自然言語のコンテンツを予測するために開発されました。これらのモデルの...

機械学習

「ターシャーに会ってください:GPT4のようなマルチモーダルLLMとのウェブインタラクションを可能にするオープンソースのPythonライブラリ」

AIの成長とそれによる私たちの生活への影響はますます大きくなっており、AIをより便利で使いやすくするための研究が行われて...

AIニュース

AWS CDKを介してAmazon SageMakerロールマネージャーを使用して、カスタム権限を数分で定義します

機械学習(ML)の管理者は、MLワークロードのセキュリティと完全性を維持する上で重要な役割を果たしています彼らの主な焦点...

機械学習

「Glazeとの出会い:アーティストが生成AIモデルによる再現を防ぐための新しいAIツール」

テキストから画像を生成するモデルの登場により、アート業界は変革を遂げ、誰でもテキストのプロンプトを提供することで詳細...

機械学習

「Llama2とAmazon SageMakerを使用したLoRAのファインチューニングモデルのモデル管理」

ビッグデータとAIの時代において、企業は競争上の優位性を得るためにこれらの技術を利用する方法を常に探求しています現在、A...