「2Dから3Dへ:アラインドジオメトリックプライオリティを用いたテキストから3D生成の一貫性向上」

「2Dから3Dへ:アラインドジオメトリックプライオリティを活用した、テキストからの3D生成の一貫性向上」

2D画像を3Dオブジェクトに変換することは、テキストから3D生成のために困難なタスクです。これは、2D拡散モデルがビューに関する事前情報のみを学習し、リフティング中に3D空間の理解を持っていないためです。この制約の結果として、マルチビューの不整合問題が発生します。つまり、3Dオブジェクトはすべての視点から一貫していません。たとえば、2D画像のキューブを3D空間にリフトすると、モデルは一つの視点からは完璧なキューブを生成するかもしれませんが、他の視点からは歪んでしまう可能性があります。

幾何学的な整合性の問題に対処するために、研究者グループはSweetDreamerと呼ばれる新しい手法を導入しました。この手法では、リフティング中にはっきりした3D形状を追加し、拡散モデルの2D幾何学的な事前情報をそれと整列させます。この手法では、2D拡散モデルを視点に注意するように微調整し(オブジェクトの外観が視点によってどのように変化するかを理解する)、標準的な向きの3Dオブジェクトのビュー固有の座標マップを生成します。このアプローチは、すべての視点から一貫した3Dオブジェクトを効果的に生成するのに非常に効果的です。

研究者は、3Dの一貫性のない結果の主な原因が幾何学的な整合性にあることを認識しており、そのため、彼らの目標は、2D事前情報に3Dオブジェクトを生成する能力を持たせ、一貫して見える3Dオブジェクトを一般化性を保持しつつ生成することです。

研究者が提案した手法は、さまざまな標準的な向きと正規化された3Dモデルからなる包括的な3Dデータセットを活用しています。ランダムな角度から深度マップがレンダリングされ、標準的な座標マップに変換されます。そして、2D拡散モデルを微調整して特定のビューと整列された座標マップを生成し、2D拡散の幾何学的な事前情報を整列させます。最後に、整列した幾何学的な事前情報はさまざまなテキストから3Dシステムにスムーズに統合され、整合性の問題を効果的に軽減し、多様で高品質な3Dコンテンツを生成します。

DMTetとNeRFは、テキストから3D生成でよく使われる2つの共通の3D表現です。研究論文では、著者たちは彼らの整列した幾何学的な事前情報を、DMTetベースおよびNeRFベースのテキストから3Dパイプラインの両方に統合することで、生成された3Dオブジェクトの品質を向上させることを示しました。これは、彼らのアプローチの汎用性と、さまざまなテキストから3Dシステムのパフォーマンスを向上させる可能性を示しています。

テキストから3Dプロセスの結果を評価するための確立されたメトリックが不足しているため、研究者は3Dの複数のビューの一貫性を評価することに焦点を当てました。彼らはDreamFusionギャラリーからランダムに80のプロンプトを選択し、各手法を使用してテキストから3D生成を行いました。3Dの不整合性は手動でチェックして成功率を報告しました。研究者は、彼らの手法が他の手法を大幅に上回ることを発見しました。彼らの成功率は両方のパイプライン(DMTetおよびNeRF)で85%以上であり、他の手法は約30%でした。

結論として、SweetDreamers手法は、テキストから3D生成で最先端のパフォーマンスを実現する新しい方法を提供しています。マルチビューの一貫性の問題がない幅広いプロンプトから結果を生成することができます。これは、他の以前の手法と比較して優れたパフォーマンスを提供し、研究者は自分たちの研究が限られた3Dデータを使用して2D拡散事前情報を強化する新たな方向を開くと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

Deep Learningモデルのトレーニングをスーパーチャージ

90%に到達すると精度が初めのほうでは簡単に向上しますが、それ以上の改善を得るためには非常に力を入れなければならないとい...

人工知能

「6週間でCassandraにベクトル検索を追加するのにAIがどのように役立ったのか」

「DataStaxは、この基礎となるAI機能を追加するために迅速に動かなければなりませんでしたChatGPT、Copilot、および他のAIツ...

機械学習

学生と機関のためのChatGPTプラグインで学習を向上させる

イントロダクション ChatGPTは、最も高度な会話型AIモデルの一つとして急速に注目を集めており、多様なトピックにわたって人...

コンピュータサイエンス

認知的な燃焼を引き起こす:認知アーキテクチャとLLMの融合による次世代コンピュータの構築

技術はシステムに統合されることで、ブレークスルーとなりますこの記事では、言語モデルを統合する取り組みについて探求し、...

機械学習

Google Gemini APIを使用してLLMモデルを構築する

導入 ChatGPTとOpenAIのGPTモデルのリリース、およびMicrosoftとのパートナーシップにより、AIの領域にTransformerモデルをも...

機械学習

高度な言語モデルの世界における倫理とプライバシーの探求

はじめに 現代の急速に進化する技術的な景観において、大規模言語モデル(LLM)は、産業を再構築し、人間とコンピュータの相...