思っているベイダーではありません 3D VADERは3Dモデルを拡散するAIモデルです

3D VADERは3Dモデルを拡散するAIモデルです

イメージ生成はこれまでにないほど簡単になりました。生成型AIモデルの台頭により、プロセスは本当に簡単になりました。まるでデザイナーがあなたのために働いているかのようで、あなたが見たいイメージを生成するためにガイドするだけで済みます。

同じことは画像編集にも当てはまります。これらの生成モデルは新しい画像を生成するだけでなく、最近の研究によって提供された高度なアップグレードにより既存の画像の編集にも使用することができます。

これらすべては、ノイズ除去拡散モデルのおかげで可能になりました。彼らは画像生成領域を完全に変革しました。これは私たちがこの分野で目撃した最も重要な進歩の一つでした。これらのモデルは画像、音声、および動画のアプリケーションに適用されています。

しかし、もし気づいているなら、ここに1つの要素が欠けています。第三の次元はどこにあるのでしょうか?イメージ生成は既に写真のような現実感を持つレベルに達しており、ビデオや音声の生成にも多くの試みが行われており、日々向上しています。非常に現実的なレベルに達することも近い将来予想されます。しかし、なぜ3Dオブジェクトの生成についてあまり聞かないのでしょうか?

私たちは3Dの世界に生きています。それは静的な3Dオブジェクトと動的な3Dオブジェクトの両方に特徴があります。これにより、2Dと3Dのギャップを埋めることは非常に困難な課題となっています。では、このギャップを埋めようとしている新しい挑戦者3DVADERに会いましょう。

3DVADERは、3D生成モデルの中核的な課題に取り組んでいます。つまり、現代の画像生成技術の素晴らしい能力と3D世界の幾何学的な詳細をシームレスに扱う方法です。

3DVADERは、3Dコンテンツの設計とモデルのトレーニング方法を再考します。以前の方法とは異なり、拡張性と多様性に苦労したものの、この実装はこれらの課題に果敢に取り組み、3Dコンテンツ生成の未来に新しい視点を提供します。

3DVADERは、独自のアプローチでこれを実現しています。トレーニングに従来のオートエンコーダーに依存するのではなく、ボリューメトリックオートデコーダーを導入します。このオートデコーダーは各オブジェクトに1次元ベクトルをマッピングし、3Dの監督不要で幅広いオブジェクトカテゴリに対応します。このアプローチは、レンダリングの一貫性をガイドプリンシプルとして2Dの観測から3D表現を学習します。この新しい表現は可動部位を収容し、非剛体オブジェクトをモデル化するための必要性を満たします。

3DVADERの概要。出典: https://arxiv.org/pdf/2307.05445.pdf

別の問題はデータセットに関するものです。画像と単眼ビデオが最も利用可能なデータを占めているため、堅牢で多目的な3Dデータセットの準備は未解決の課題です。以前のアプローチとは異なり、3DVADERはマルチビュー画像と単眼ビデオを活用して3D感知コンテンツを生成します。トレーニング中に姿勢情報の欠如に対して真実の姿勢、推定された姿勢、または完全に提供されない姿勢情報に対して堅牢性を提供することで、オブジェクトのポーズの多様性の課題を解決します。さらに、3DVADERはさまざまなカテゴリの多様なオブジェクトを対象とするデータセットに対応しており、拡張性の問題に取り組んでいます。

3DVADERは3Dオブジェクトを生成できます。出典: https://snap-research.github.io/3DVADER/

全体的に、3DVADERは、静的および関節付きの3Dアセットを生成するための新しい手法であり、その中核として3Dオートデコーダーが使用されています。既存のカメラの監視の利用またはトレーニング中にこの情報を学習することができます。最先端の代替手法と比較して、生成の性能が優れています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

コンピュータビジョンの進歩:画像認識のためのディープラーニング

この記事では、コンピュータビジョンの進歩について詳しく学びますまた、画像認識のためのディープラーニングについても学び...

データサイエンス

なぜハイプが重要なのか:AIについて現実的な考え方が必要

ELIZAはChatGPTにいくつかの類似点を持つ初期のチャットボットでしたなぜこの興奮が重要なのでしょうか?船を発明すると、船...

データサイエンス

「PyTorch ProfilerとTensorBoardを使用して、データ入力パイプラインのボトルネックを解消する」

「これは、GPUベースのPyTorchワークロードのパフォーマンス分析と最適化に関するシリーズ投稿の4番目の投稿ですこの投稿では...

機械学習

「大規模な言語モデルの探索-パート3」

「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップした...

機械学習

GLIP オブジェクト検出への言語-画像事前学習の導入

今日は、言語-画像の事前学習であるCLIPの素晴らしい成功を基に、物体検出のタスクに拡張した論文であるGLIPについて掘り下げ...

機械学習

チューリングテスト、中国の部屋、そして大規模言語モデル

チューリングテストは、AIの分野での古典的なアイデアですもともとは模倣ゲームと呼ばれ、アラン・チューリングは1950年に自...