DORSalとは 3Dシーンの生成とオブジェクトレベルの編集のための3D構造拡散モデル

DORSal is a 3D structural diffusion model for generating 3D scenes and editing at the object level.

人工知能は、Generative AIとLarge Language Models(LLMs)の導入により進化しています。GPT、BERT、PaLMなどのよく知られたモデルは、人間とコンピュータの相互作用を変革するLLMの長いリストに素晴らしい追加です。画像生成では、拡散モデルが研究者の注目を集めています。これらのモデルは、画像データセットの複雑な確率分布を捉え、トレーニングデータに似た新しいサンプルを生成します。3Dシーン理解も進化しており、大規模なシーンデータセットで訓練できるジオメトリフリーなニューラルネットワークの開発を可能にしています。これらのネットワークは、見たことのないシーンやオブジェクトにも適用でき、単一またはわずかな入力画像から視点を生成し、トレーニングにはシーンごとにわずかな観測データのみが必要です。

拡散モデルと3Dシーン表現学習モデルの能力を組み合わせることで、UCバークレー、Google Research、Google DeepMindの研究チームはDORSal(Diffusion for Object-centric Representations of Scenes et al.)を開発しました。これは、オブジェクト表現と拡散デコーダを組み合わせて、3Dシーンの新しい視点を生成するアプローチです。DORSalはジオメトリフリーであり、高価なボリュームレンダリングを必要とせず、データだけから純粋に3Dシーン構造を学習します。

3Dシーンの作成を目的として、DORSalは元々画像合成のために作成されたビデオ拡散アーキテクチャを利用しています。主なコンセプトは、シーンのオブジェクトに関するスロットベースのオブジェクト中心の表現を拡散モデルに制約として利用することです。これらの表現は、シーンのオブジェクトとその特性に関する重要な詳細を捉えています。DORSalは、これらのオブジェクト中心の表現に拡散モデルを構成することで、3Dシーンの高品質な革新的な視点の合成を容易にします。また、オブジェクトレベルのシーン編集の機能も持ち、ユーザーはシーン内の特定のアイテムを変更および変更することができます。

チームによる主な貢献は次のとおりです。

  1. 拡散モデルとオブジェクト中心のシーン表現の強みを活用した3D新視点合成アプローチであるDORSalは、描画された視点の品質を向上させます。
  1. 従来の3Dシーン理解の方法と比較して、DORSalは優れたパフォーマンスを発揮し、Fréchet Inception Distance(FID)の5倍から10倍の改善を実現します。
  1. 3D拡散モデルに関する従来の研究と比較して、DORSalはより複雑なシーンの処理能力に優れています。Google Street Viewの実世界のデータを評価した結果、DORSalは描画品質の点で著しく優れたパフォーマンスを発揮します。
  1. DORSalは、構造化されたオブジェクトベースのシーン表現を拡散モデルに条件付けることができます。この表現を使用することで、DORSalは個々のオブジェクトを使用してシーンを構成することを学び、推論中に基本的なオブジェクトレベルのシーン編集を可能にし、ユーザーはシーン内の特定のオブジェクトを操作および変更することができます。

結論として、DORSalの効果は、複雑な合成マルチオブジェクトシーンとGoogle Street Viewなどの実世界の大規模データセットで行われた実験によって確認されます。スケーラブルな3Dシーンのオブジェクトレベルの編集を可能にする能力は、将来の展望に向けた有望なアプローチです。改善された描画品質は、3Dシーン理解の進歩の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

I/O 2023 で発表した100のこと

Google I/O 2023はニュースとローンチで満ち溢れていましたここではI/Oで発表された100のことを紹介します

データサイエンス

「JAXとHaikuを使用してゼロからTransformerエンコーダを実装する🤖」

2017年に「アテンションはすべて」という画期的な論文で紹介されたトランスフォーマーアーキテクチャは、最近の深層学習の歴...

データサイエンス

GPT-4 新しいOpenAIモデル

近年、人工知能に基づく自然言語システムの開発は前例のない進歩を遂げています

機械学習

ドレスコードの解読👗 自動ファッションアイテム検出のためのディープラーニング

電子商取引の活気ある世界では、ファッション業界は独自のランウェイですしかし、もし我々がこのランウェイのドレスコードを...

データサイエンス

グラフ、分析、そして生成AI グラフニュースレターの年

グラフ、分析、および生成AIグラフとAIが結びつくさまざまな方法と、業界と研究のニュースについての説明

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...