アドビの研究者たちは、『DMV3D』という新しい3D生成手法を提案していますこの手法は、トランスフォーマーベースの3D大規模再構築モデルを用いて、マルチビューディフュージョンのノイズを除去します
「アドビの研究者が提案する新たな3D生成手法『DMV3D』:トランスフォーマーベースの3D大規模再構築モデルを利用し、マルチビューディフュージョンのノイズを除去」
拡張現実(AR)、仮想現実(VR)、ロボティクス、ゲームにおける3Dアセットの作成には共通の課題が存在します。複雑な3Dアセットの作成プロセスを簡素化する3D拡散モデルの人気が高まっていますが、それには注意が必要です。これらのモデルは、トレーニングのために正確な3Dモデルまたはポイントクラウドへのアクセスが必要であり、実際の画像では課題となる場合があります。さらに、潜在的な3D拡散アプローチは、多様な3Dデータセット上で複雑でノイズの多い潜在空間を生み出すことが多く、高品質なレンダリングが困難な課題となっています。
既存の解決策では、多くの手作業や最適化プロセスが要求されることがよくあります。Adobe ResearchとStanfordの研究者チームは、3D生成プロセスをより迅速で現実的かつジェネリックにする取り組みを行っています。最近の論文では、DMV3Dという新しいアプローチが紹介されており、シングルステージのカテゴリー非依存型拡散モデルです。このモデルは、テキストまたは単一の画像入力条件から3Dニューラルラディアンスフィールド(NeRFs)を生成することができ、3Dオブジェクトを作成するのに必要な時間を大幅に短縮します。
DMV3Dの重要な貢献は、3D生成のためのマルチビュー2D画像拡散モデルを使用した画期的なシングルステージ拡散フレームワークです。彼らはまた、ノイズのないトライプレーンNeRFsをノイズの多いマルチビュー画像から再構築するマルチビューデノイザであるLarge Reconstruction Model(LRM)を導入しました。このモデルは、高品質なテキストから3D生成と単一画像再構築をするための一般的な確率的アプローチを提供し、シングルのA100 GPUでわずか30秒程度の直接モデル推論を実現します。
- 「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」
- このAI研究は、CoDi-2を紹介します:インターリーブされた指示処理とマルチモーダルな出力生成の風景を変える画期的なマルチモーダル大規模言語モデルです
- Googleの研究者が新たな大規模言語モデルの能力向上に向けた『Universal Self-Consistency (USC)』を披露
DMV3Dは、3D NeRFの再構築とレンダリングをデノイザに統合し、直接3D監視をせずに学習された2Dマルチビュー画像拡散モデルを作成します。これにより、潜在空間の拡散およびパーツごとの最適化プロセスに別個の3D NeRFエンコーダを個別にトレーニングする必要がなくなります。研究者たちは、オブジェクトを囲む4つのマルチビュー画像の疎なセットを戦略的に使用し、自己遮蔽の重要性を排除しながら3Dオブジェクトを効果的に表現しています。
大規模なトランスフォーマーモデルを活用することで、研究者たちは疎なビューの3D再構築という困難な課題に取り組んでいます。最新の3D Large Reconstruction Model(LRM)を基に構築されたこのモデルは、拡散プロセスのさまざまなノイズレベルに対応できる革新的なジョイント再構築およびデノイズモデルを導入しています。このモデルは、マルチビュー画像拡散フレームワーク内のマルチビュー画像デノイザとして統合されます。
合成レンダリングと実際のキャプチャを含む大規模なデータセットでトレーニングされたDMV3Dは、シングルのA100 GPUで約30秒でシングルステージ3Dを生成する能力を示しています。また、単一画像による3D再構築でも最先端の結果を達成しています。この研究は、2Dと3Dの生成モデルの領域を結びつけ、3D再構築と生成を統一することで、3Dビジョンとグラフィックスのさまざまな課題に取り組むための基盤モデルの開発の可能性を提供します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- マイクロソフトリサーチとジョージア工科大学の研究者が、言語モデルの幻覚の統計的な境界を公表しました
- Google AI研究のTranslatotron 3:革新的な教師なし音声対音声翻訳アーキテクチャの発表
- スターリング-7B AIフィードバックからの強化学習によるLLM
- 「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」
- このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる
- ジュネーブ大学の研究者は、多剤耐性(MDR)腸内細菌感染の入院リスクを予測するためのグラフベースの機械学習モデルを調査しています
- 上海人工知能研究所とMITの研究チームが、階層的に制御された再帰ニューラルネットワーク(RNN)の開発を発表しましたこれは効率的な長期依存性モデリングにおける新たなフロンティアです