アドビの研究者たちは、『DMV3D』という新しい3D生成手法を提案していますこの手法は、トランスフォーマーベースの3D大規模再構築モデルを用いて、マルチビューディフュージョンのノイズを除去します

「アドビの研究者が提案する新たな3D生成手法『DMV3D』:トランスフォーマーベースの3D大規模再構築モデルを利用し、マルチビューディフュージョンのノイズを除去」

拡張現実(AR)、仮想現実(VR)、ロボティクス、ゲームにおける3Dアセットの作成には共通の課題が存在します。複雑な3Dアセットの作成プロセスを簡素化する3D拡散モデルの人気が高まっていますが、それには注意が必要です。これらのモデルは、トレーニングのために正確な3Dモデルまたはポイントクラウドへのアクセスが必要であり、実際の画像では課題となる場合があります。さらに、潜在的な3D拡散アプローチは、多様な3Dデータセット上で複雑でノイズの多い潜在空間を生み出すことが多く、高品質なレンダリングが困難な課題となっています。

既存の解決策では、多くの手作業や最適化プロセスが要求されることがよくあります。Adobe ResearchとStanfordの研究者チームは、3D生成プロセスをより迅速で現実的かつジェネリックにする取り組みを行っています。最近の論文では、DMV3Dという新しいアプローチが紹介されており、シングルステージのカテゴリー非依存型拡散モデルです。このモデルは、テキストまたは単一の画像入力条件から3Dニューラルラディアンスフィールド(NeRFs)を生成することができ、3Dオブジェクトを作成するのに必要な時間を大幅に短縮します。

DMV3Dの重要な貢献は、3D生成のためのマルチビュー2D画像拡散モデルを使用した画期的なシングルステージ拡散フレームワークです。彼らはまた、ノイズのないトライプレーンNeRFsをノイズの多いマルチビュー画像から再構築するマルチビューデノイザであるLarge Reconstruction Model(LRM)を導入しました。このモデルは、高品質なテキストから3D生成と単一画像再構築をするための一般的な確率的アプローチを提供し、シングルのA100 GPUでわずか30秒程度の直接モデル推論を実現します。

DMV3Dは、3D NeRFの再構築とレンダリングをデノイザに統合し、直接3D監視をせずに学習された2Dマルチビュー画像拡散モデルを作成します。これにより、潜在空間の拡散およびパーツごとの最適化プロセスに別個の3D NeRFエンコーダを個別にトレーニングする必要がなくなります。研究者たちは、オブジェクトを囲む4つのマルチビュー画像の疎なセットを戦略的に使用し、自己遮蔽の重要性を排除しながら3Dオブジェクトを効果的に表現しています。

大規模なトランスフォーマーモデルを活用することで、研究者たちは疎なビューの3D再構築という困難な課題に取り組んでいます。最新の3D Large Reconstruction Model(LRM)を基に構築されたこのモデルは、拡散プロセスのさまざまなノイズレベルに対応できる革新的なジョイント再構築およびデノイズモデルを導入しています。このモデルは、マルチビュー画像拡散フレームワーク内のマルチビュー画像デノイザとして統合されます。

合成レンダリングと実際のキャプチャを含む大規模なデータセットでトレーニングされたDMV3Dは、シングルのA100 GPUで約30秒でシングルステージ3Dを生成する能力を示しています。また、単一画像による3D再構築でも最先端の結果を達成しています。この研究は、2Dと3Dの生成モデルの領域を結びつけ、3D再構築と生成を統一することで、3Dビジョンとグラフィックスのさまざまな課題に取り組むための基盤モデルの開発の可能性を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「クレジットカードの不履行データセットのバイアスの検証と検出」

このセクションでは、クレジットカードのデフォルトデータセットにおけるバイアスについて探求し、若者と高齢者の借り手の間...

コンピュータサイエンス

AIが使われて新しいビートルズの最後の曲が作成された、ポール・マッカートニー氏が語る

ミュージシャンは、古いデモからジョン・レノンの声を「抽出」し、数十年前の曲を完成させるためにテクノロジーを使用したと...

データサイエンス

メタAIのもう一つの革命的な大規模モデル — 画像特徴抽出のためのDINOv2

Mete AIは、画像から自動的に視覚的な特徴を抽出する新しい画像特徴抽出モデルDINOv2の新バージョンを紹介しましたこれはAIの...

データサイエンス

「S4 HANAとDomoでSQLを使用してデータ分析を超高速化する:機械学習の視点から」

「利用可能な多くのテクノロジーの中で、SQL、マシンラーニング、S4 HANA、そしてDomoの4つが際立っていますこれらは強力な洞...

データサイエンス

「タコ」の複雑な細胞は彼らの高い知能の鍵です

研究者たちは、自動組織準備と新しい機械学習再構築アルゴリズムを用いて、タコの学習プロセスを定義する神経の構造を探索し...

AIニュース

「メタのLlama 2の力を明らかにする:創発型AIの飛躍?」

この記事では、Metaが新しくリリースしたLlama 2の技術的な詳細と意義について探求しますLlama 2は、生成型AIの分野を革新す...