思っているベイダーではありません 3D VADERは3Dモデルを拡散するAIモデルです

3D VADERは3Dモデルを拡散するAIモデルです

イメージ生成はこれまでにないほど簡単になりました。生成型AIモデルの台頭により、プロセスは本当に簡単になりました。まるでデザイナーがあなたのために働いているかのようで、あなたが見たいイメージを生成するためにガイドするだけで済みます。

同じことは画像編集にも当てはまります。これらの生成モデルは新しい画像を生成するだけでなく、最近の研究によって提供された高度なアップグレードにより既存の画像の編集にも使用することができます。

これらすべては、ノイズ除去拡散モデルのおかげで可能になりました。彼らは画像生成領域を完全に変革しました。これは私たちがこの分野で目撃した最も重要な進歩の一つでした。これらのモデルは画像、音声、および動画のアプリケーションに適用されています。

しかし、もし気づいているなら、ここに1つの要素が欠けています。第三の次元はどこにあるのでしょうか?イメージ生成は既に写真のような現実感を持つレベルに達しており、ビデオや音声の生成にも多くの試みが行われており、日々向上しています。非常に現実的なレベルに達することも近い将来予想されます。しかし、なぜ3Dオブジェクトの生成についてあまり聞かないのでしょうか?

私たちは3Dの世界に生きています。それは静的な3Dオブジェクトと動的な3Dオブジェクトの両方に特徴があります。これにより、2Dと3Dのギャップを埋めることは非常に困難な課題となっています。では、このギャップを埋めようとしている新しい挑戦者3DVADERに会いましょう。

3DVADERは、3D生成モデルの中核的な課題に取り組んでいます。つまり、現代の画像生成技術の素晴らしい能力と3D世界の幾何学的な詳細をシームレスに扱う方法です。

3DVADERは、3Dコンテンツの設計とモデルのトレーニング方法を再考します。以前の方法とは異なり、拡張性と多様性に苦労したものの、この実装はこれらの課題に果敢に取り組み、3Dコンテンツ生成の未来に新しい視点を提供します。

3DVADERは、独自のアプローチでこれを実現しています。トレーニングに従来のオートエンコーダーに依存するのではなく、ボリューメトリックオートデコーダーを導入します。このオートデコーダーは各オブジェクトに1次元ベクトルをマッピングし、3Dの監督不要で幅広いオブジェクトカテゴリに対応します。このアプローチは、レンダリングの一貫性をガイドプリンシプルとして2Dの観測から3D表現を学習します。この新しい表現は可動部位を収容し、非剛体オブジェクトをモデル化するための必要性を満たします。

3DVADERの概要。出典: https://arxiv.org/pdf/2307.05445.pdf

別の問題はデータセットに関するものです。画像と単眼ビデオが最も利用可能なデータを占めているため、堅牢で多目的な3Dデータセットの準備は未解決の課題です。以前のアプローチとは異なり、3DVADERはマルチビュー画像と単眼ビデオを活用して3D感知コンテンツを生成します。トレーニング中に姿勢情報の欠如に対して真実の姿勢、推定された姿勢、または完全に提供されない姿勢情報に対して堅牢性を提供することで、オブジェクトのポーズの多様性の課題を解決します。さらに、3DVADERはさまざまなカテゴリの多様なオブジェクトを対象とするデータセットに対応しており、拡張性の問題に取り組んでいます。

3DVADERは3Dオブジェクトを生成できます。出典: https://snap-research.github.io/3DVADER/

全体的に、3DVADERは、静的および関節付きの3Dアセットを生成するための新しい手法であり、その中核として3Dオートデコーダーが使用されています。既存のカメラの監視の利用またはトレーニング中にこの情報を学習することができます。最先端の代替手法と比較して、生成の性能が優れています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Google フォトのマジックエディター:写真を再構築するための新しいAI編集機能

Magic Editorは、AIを使用して写真を再構想するのを手助けする実験的な編集体験です今年後半には、選択されたPixel電話での早...

データサイエンス

データ駆動型生成AI:データと分析の利点

ジェネラティブAIは、データと分析の領域を革命化し、生産性を高め、納期を短縮すると位置付けられています

AIテクノロジー

高度なRAGテクニック:イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず...

データサイエンス

AIにおける継続的学習の現状について

なぜchatGPTは2021年までの訓練しかされていないのですか?この記事では、深層学習における継続的な学習の現状を解説し、特に...

データサイエンス

大規模な言語モデルについて企業が知っておくべきこと

大規模な言語モデルは、ビジネスコミュニケーション、コンテンツ作成、データ分析を変革しますビジネスにおける主な機能と利...

AIニュース

「マイクロソフト、Windows上でのCortanaの終了を発表」

マイクロソフトは重要な動きとして、WindowsでのCortanaのサポート終了を宣言しました。この発表は、Windows Centralによって...