DORSalとは 3Dシーンの生成とオブジェクトレベルの編集のための3D構造拡散モデル

DORSal is a 3D structural diffusion model for generating 3D scenes and editing at the object level.

人工知能は、Generative AIとLarge Language Models(LLMs)の導入により進化しています。GPT、BERT、PaLMなどのよく知られたモデルは、人間とコンピュータの相互作用を変革するLLMの長いリストに素晴らしい追加です。画像生成では、拡散モデルが研究者の注目を集めています。これらのモデルは、画像データセットの複雑な確率分布を捉え、トレーニングデータに似た新しいサンプルを生成します。3Dシーン理解も進化しており、大規模なシーンデータセットで訓練できるジオメトリフリーなニューラルネットワークの開発を可能にしています。これらのネットワークは、見たことのないシーンやオブジェクトにも適用でき、単一またはわずかな入力画像から視点を生成し、トレーニングにはシーンごとにわずかな観測データのみが必要です。

拡散モデルと3Dシーン表現学習モデルの能力を組み合わせることで、UCバークレー、Google Research、Google DeepMindの研究チームはDORSal(Diffusion for Object-centric Representations of Scenes et al.)を開発しました。これは、オブジェクト表現と拡散デコーダを組み合わせて、3Dシーンの新しい視点を生成するアプローチです。DORSalはジオメトリフリーであり、高価なボリュームレンダリングを必要とせず、データだけから純粋に3Dシーン構造を学習します。

3Dシーンの作成を目的として、DORSalは元々画像合成のために作成されたビデオ拡散アーキテクチャを利用しています。主なコンセプトは、シーンのオブジェクトに関するスロットベースのオブジェクト中心の表現を拡散モデルに制約として利用することです。これらの表現は、シーンのオブジェクトとその特性に関する重要な詳細を捉えています。DORSalは、これらのオブジェクト中心の表現に拡散モデルを構成することで、3Dシーンの高品質な革新的な視点の合成を容易にします。また、オブジェクトレベルのシーン編集の機能も持ち、ユーザーはシーン内の特定のアイテムを変更および変更することができます。

チームによる主な貢献は次のとおりです。

  1. 拡散モデルとオブジェクト中心のシーン表現の強みを活用した3D新視点合成アプローチであるDORSalは、描画された視点の品質を向上させます。
  1. 従来の3Dシーン理解の方法と比較して、DORSalは優れたパフォーマンスを発揮し、Fréchet Inception Distance(FID)の5倍から10倍の改善を実現します。
  1. 3D拡散モデルに関する従来の研究と比較して、DORSalはより複雑なシーンの処理能力に優れています。Google Street Viewの実世界のデータを評価した結果、DORSalは描画品質の点で著しく優れたパフォーマンスを発揮します。
  1. DORSalは、構造化されたオブジェクトベースのシーン表現を拡散モデルに条件付けることができます。この表現を使用することで、DORSalは個々のオブジェクトを使用してシーンを構成することを学び、推論中に基本的なオブジェクトレベルのシーン編集を可能にし、ユーザーはシーン内の特定のオブジェクトを操作および変更することができます。

結論として、DORSalの効果は、複雑な合成マルチオブジェクトシーンとGoogle Street Viewなどの実世界の大規模データセットで行われた実験によって確認されます。スケーラブルな3Dシーンのオブジェクトレベルの編集を可能にする能力は、将来の展望に向けた有望なアプローチです。改善された描画品質は、3Dシーン理解の進歩の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ネットワークの強化:異常検知のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そしてディープラーニング技術が、異常を精度良く検出することでネットワークセキュリティを向上させ...

AIテクノロジー

6つのGenAIポッドキャスト、聴くべきです

はじめに 急速に進化する 人工知能(AI)の世界において、生成AI(GenAI)の領域は魅力的でダイナミックな分野として注目され...

機械学習

統合と自動化の簡素化:Boomi CTOが開発者と共有するビジョン

アイと自動化を活用した民主化された統合プラットフォームは、複雑なタスクを単純化し、持続的な進化を推進します

AI研究

「ユーレカ!NVIDIAの研究によるロボット学習の新たな進展」

ロボットに複雑なスキルを教えることができるNVIDIA Researchによって開発された新しいAIエージェントは、ロボットの手にペン...

人工知能

なぜBankrateはAI生成記事を諦めたのか

1月に、Bankrateとその姉妹サイトであるCNETがAIによって生成された数百の記事を公開することで話題となりました彼らは慎重に...

人工知能

AIによって設計されたカードゲーム、I/O FLIPをプレイしましょう

Google I/O 2023に間に合うように、生成AIで構築されたオンラインカードゲームI/O FLIPをお試しください