アドビの研究者たちは、『DMV3D』という新しい3D生成手法を提案していますこの手法は、トランスフォーマーベースの3D大規模再構築モデルを用いて、マルチビューディフュージョンのノイズを除去します

「アドビの研究者が提案する新たな3D生成手法『DMV3D』:トランスフォーマーベースの3D大規模再構築モデルを利用し、マルチビューディフュージョンのノイズを除去」

拡張現実(AR)、仮想現実(VR)、ロボティクス、ゲームにおける3Dアセットの作成には共通の課題が存在します。複雑な3Dアセットの作成プロセスを簡素化する3D拡散モデルの人気が高まっていますが、それには注意が必要です。これらのモデルは、トレーニングのために正確な3Dモデルまたはポイントクラウドへのアクセスが必要であり、実際の画像では課題となる場合があります。さらに、潜在的な3D拡散アプローチは、多様な3Dデータセット上で複雑でノイズの多い潜在空間を生み出すことが多く、高品質なレンダリングが困難な課題となっています。

既存の解決策では、多くの手作業や最適化プロセスが要求されることがよくあります。Adobe ResearchとStanfordの研究者チームは、3D生成プロセスをより迅速で現実的かつジェネリックにする取り組みを行っています。最近の論文では、DMV3Dという新しいアプローチが紹介されており、シングルステージのカテゴリー非依存型拡散モデルです。このモデルは、テキストまたは単一の画像入力条件から3Dニューラルラディアンスフィールド(NeRFs)を生成することができ、3Dオブジェクトを作成するのに必要な時間を大幅に短縮します。

DMV3Dの重要な貢献は、3D生成のためのマルチビュー2D画像拡散モデルを使用した画期的なシングルステージ拡散フレームワークです。彼らはまた、ノイズのないトライプレーンNeRFsをノイズの多いマルチビュー画像から再構築するマルチビューデノイザであるLarge Reconstruction Model(LRM)を導入しました。このモデルは、高品質なテキストから3D生成と単一画像再構築をするための一般的な確率的アプローチを提供し、シングルのA100 GPUでわずか30秒程度の直接モデル推論を実現します。

DMV3Dは、3D NeRFの再構築とレンダリングをデノイザに統合し、直接3D監視をせずに学習された2Dマルチビュー画像拡散モデルを作成します。これにより、潜在空間の拡散およびパーツごとの最適化プロセスに別個の3D NeRFエンコーダを個別にトレーニングする必要がなくなります。研究者たちは、オブジェクトを囲む4つのマルチビュー画像の疎なセットを戦略的に使用し、自己遮蔽の重要性を排除しながら3Dオブジェクトを効果的に表現しています。

大規模なトランスフォーマーモデルを活用することで、研究者たちは疎なビューの3D再構築という困難な課題に取り組んでいます。最新の3D Large Reconstruction Model(LRM)を基に構築されたこのモデルは、拡散プロセスのさまざまなノイズレベルに対応できる革新的なジョイント再構築およびデノイズモデルを導入しています。このモデルは、マルチビュー画像拡散フレームワーク内のマルチビュー画像デノイザとして統合されます。

合成レンダリングと実際のキャプチャを含む大規模なデータセットでトレーニングされたDMV3Dは、シングルのA100 GPUで約30秒でシングルステージ3Dを生成する能力を示しています。また、単一画像による3D再構築でも最先端の結果を達成しています。この研究は、2Dと3Dの生成モデルの領域を結びつけ、3D再構築と生成を統一することで、3Dビジョンとグラフィックスのさまざまな課題に取り組むための基盤モデルの開発の可能性を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Amazon LexをLLMsで強化し、URLの取り込みを使用してFAQの体験を向上させる」

「現代のデジタル世界では、ほとんどの消費者は、ビジネスやサービスプロバイダに問い合わせるために時間をかけるよりも、自...

AI研究

AIを利用して、科学者たちは、抗薬剤耐性感染症に対抗できる薬剤を発見しました

機械学習アルゴリズムは、多くの病院の環境に潜むAcinetobacter baumannii菌を殺す化合物を特定しました

AIニュース

「AIの成長する需要が世界的な水不足を引き起こす可能性がある」

人工知能は技術革命の原動力でありながら、静かに私たちの水資源を枯渇させています。OpenAIのChatGPTなどの高度なシステムを...

データサイエンス

『Amazon SageMaker を使用して、Talent.com の ETL データ処理を効率化する』

この投稿では、Talent.comでの求人推薦モデルのトレーニングと展開のために開発したETLパイプラインについて説明します当社の...

機械学習

「LLaMaをポケットに収めるトリック:LLMの効率とパフォーマンスを結ぶAIメソッド、OmniQuantに出会おう」

大型言語モデル(LLM)は、機械翻訳、テキスト要約、質問応答など、さまざまな自然言語処理タスクで印象的なパフォーマンスを...

機械学習

AudioPaLMの紹介:Googleの言語モデルにおける突破口

テック巨人Googleが、ジェネラティブAIの分野で重要な進展を遂げ、最先端のマルチモーダル言語モデルであるAudioPaLMを発表し...