DORSalとは 3Dシーンの生成とオブジェクトレベルの編集のための3D構造拡散モデル

DORSal is a 3D structural diffusion model for generating 3D scenes and editing at the object level.

人工知能は、Generative AIとLarge Language Models(LLMs)の導入により進化しています。GPT、BERT、PaLMなどのよく知られたモデルは、人間とコンピュータの相互作用を変革するLLMの長いリストに素晴らしい追加です。画像生成では、拡散モデルが研究者の注目を集めています。これらのモデルは、画像データセットの複雑な確率分布を捉え、トレーニングデータに似た新しいサンプルを生成します。3Dシーン理解も進化しており、大規模なシーンデータセットで訓練できるジオメトリフリーなニューラルネットワークの開発を可能にしています。これらのネットワークは、見たことのないシーンやオブジェクトにも適用でき、単一またはわずかな入力画像から視点を生成し、トレーニングにはシーンごとにわずかな観測データのみが必要です。

拡散モデルと3Dシーン表現学習モデルの能力を組み合わせることで、UCバークレー、Google Research、Google DeepMindの研究チームはDORSal(Diffusion for Object-centric Representations of Scenes et al.)を開発しました。これは、オブジェクト表現と拡散デコーダを組み合わせて、3Dシーンの新しい視点を生成するアプローチです。DORSalはジオメトリフリーであり、高価なボリュームレンダリングを必要とせず、データだけから純粋に3Dシーン構造を学習します。

3Dシーンの作成を目的として、DORSalは元々画像合成のために作成されたビデオ拡散アーキテクチャを利用しています。主なコンセプトは、シーンのオブジェクトに関するスロットベースのオブジェクト中心の表現を拡散モデルに制約として利用することです。これらの表現は、シーンのオブジェクトとその特性に関する重要な詳細を捉えています。DORSalは、これらのオブジェクト中心の表現に拡散モデルを構成することで、3Dシーンの高品質な革新的な視点の合成を容易にします。また、オブジェクトレベルのシーン編集の機能も持ち、ユーザーはシーン内の特定のアイテムを変更および変更することができます。

チームによる主な貢献は次のとおりです。

  1. 拡散モデルとオブジェクト中心のシーン表現の強みを活用した3D新視点合成アプローチであるDORSalは、描画された視点の品質を向上させます。
  1. 従来の3Dシーン理解の方法と比較して、DORSalは優れたパフォーマンスを発揮し、Fréchet Inception Distance(FID)の5倍から10倍の改善を実現します。
  1. 3D拡散モデルに関する従来の研究と比較して、DORSalはより複雑なシーンの処理能力に優れています。Google Street Viewの実世界のデータを評価した結果、DORSalは描画品質の点で著しく優れたパフォーマンスを発揮します。
  1. DORSalは、構造化されたオブジェクトベースのシーン表現を拡散モデルに条件付けることができます。この表現を使用することで、DORSalは個々のオブジェクトを使用してシーンを構成することを学び、推論中に基本的なオブジェクトレベルのシーン編集を可能にし、ユーザーはシーン内の特定のオブジェクトを操作および変更することができます。

結論として、DORSalの効果は、複雑な合成マルチオブジェクトシーンとGoogle Street Viewなどの実世界の大規模データセットで行われた実験によって確認されます。スケーラブルな3Dシーンのオブジェクトレベルの編集を可能にする能力は、将来の展望に向けた有望なアプローチです。改善された描画品質は、3Dシーン理解の進歩の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「インド、人工知能を利用し言語の壁を解消へと向かう」

インドは人工知能(AI)を活用し、言語の壁を乗り越え、多様な人口の包括的参加を確保しようとしています。南西部の州である...

人工知能

2023年のトップ10 AI QRコードジェネレーター

QRコードは、特に支払いの便利さから広く人気があります。金融の応用にとどまらず、QRコードはさまざまなデータタイプを包括...

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...

データサイエンス

「データサイエンティストには試してみるべきジェンAIプロンプト」

「データサイエンティストのためのGen AIの力を探求する以下には、データサイエンティストを支援するためのいくつかの必須のG...

機械学習

ChatGPTを使ってより良いStackOverflowを作成する

1週間前、OpenAIがChatGPTでインターネット検索を停止したことで、私たちは少し「怒り」を感じましたので、私たちは問題を修...

データサイエンス

グラフ、分析、そして生成AI グラフニュースレターの年

グラフ、分析、および生成AIグラフとAIが結びつくさまざまな方法と、業界と研究のニュースについての説明