「2Dから3Dへ:アラインドジオメトリックプライオリティを用いたテキストから3D生成の一貫性向上」
「2Dから3Dへ:アラインドジオメトリックプライオリティを活用した、テキストからの3D生成の一貫性向上」
2D画像を3Dオブジェクトに変換することは、テキストから3D生成のために困難なタスクです。これは、2D拡散モデルがビューに関する事前情報のみを学習し、リフティング中に3D空間の理解を持っていないためです。この制約の結果として、マルチビューの不整合問題が発生します。つまり、3Dオブジェクトはすべての視点から一貫していません。たとえば、2D画像のキューブを3D空間にリフトすると、モデルは一つの視点からは完璧なキューブを生成するかもしれませんが、他の視点からは歪んでしまう可能性があります。
幾何学的な整合性の問題に対処するために、研究者グループはSweetDreamerと呼ばれる新しい手法を導入しました。この手法では、リフティング中にはっきりした3D形状を追加し、拡散モデルの2D幾何学的な事前情報をそれと整列させます。この手法では、2D拡散モデルを視点に注意するように微調整し(オブジェクトの外観が視点によってどのように変化するかを理解する)、標準的な向きの3Dオブジェクトのビュー固有の座標マップを生成します。このアプローチは、すべての視点から一貫した3Dオブジェクトを効果的に生成するのに非常に効果的です。
研究者は、3Dの一貫性のない結果の主な原因が幾何学的な整合性にあることを認識しており、そのため、彼らの目標は、2D事前情報に3Dオブジェクトを生成する能力を持たせ、一貫して見える3Dオブジェクトを一般化性を保持しつつ生成することです。
- オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました
- 「AIの透明性を解き放つ:Anthropicのフィーチャーグルーピングがニューラルネットワークの解釈可能性を向上させる方法」
- 「大型言語モデルとビジネスの架け橋:LLMops」
研究者が提案した手法は、さまざまな標準的な向きと正規化された3Dモデルからなる包括的な3Dデータセットを活用しています。ランダムな角度から深度マップがレンダリングされ、標準的な座標マップに変換されます。そして、2D拡散モデルを微調整して特定のビューと整列された座標マップを生成し、2D拡散の幾何学的な事前情報を整列させます。最後に、整列した幾何学的な事前情報はさまざまなテキストから3Dシステムにスムーズに統合され、整合性の問題を効果的に軽減し、多様で高品質な3Dコンテンツを生成します。
DMTetとNeRFは、テキストから3D生成でよく使われる2つの共通の3D表現です。研究論文では、著者たちは彼らの整列した幾何学的な事前情報を、DMTetベースおよびNeRFベースのテキストから3Dパイプラインの両方に統合することで、生成された3Dオブジェクトの品質を向上させることを示しました。これは、彼らのアプローチの汎用性と、さまざまなテキストから3Dシステムのパフォーマンスを向上させる可能性を示しています。
テキストから3Dプロセスの結果を評価するための確立されたメトリックが不足しているため、研究者は3Dの複数のビューの一貫性を評価することに焦点を当てました。彼らはDreamFusionギャラリーからランダムに80のプロンプトを選択し、各手法を使用してテキストから3D生成を行いました。3Dの不整合性は手動でチェックして成功率を報告しました。研究者は、彼らの手法が他の手法を大幅に上回ることを発見しました。彼らの成功率は両方のパイプライン(DMTetおよびNeRF)で85%以上であり、他の手法は約30%でした。
結論として、SweetDreamers手法は、テキストから3D生成で最先端のパフォーマンスを実現する新しい方法を提供しています。マルチビューの一貫性の問題がない幅広いプロンプトから結果を生成することができます。これは、他の以前の手法と比較して優れたパフォーマンスを提供し、研究者は自分たちの研究が限られた3Dデータを使用して2D拡散事前情報を強化する新たな方向を開くと考えています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「ChatGPTとBard AIを活用するために、ソフトウェア開発者はどのように役立つことができるのでしょうか?」
- ソフトウェア開発におけるAIの将来:トレンドとイノベーション
- NVIDIA AIがSteerLMを発表:大規模言語モデル(LLMs)の推論中にユーザーが応答をカスタマイズできる新たな人工知能(AI)メソッド
- 「ChatGPT 3.5 Turboの微調整方法」
- 「Decafと出会う:顔と手のインタラクションのための革新的な人工知能単眼変形キャプチャフレームワーク」
- 「MindGPTとは、fMRI信号から察知された視覚刺激を自然言語に解釈する非侵襲的な神経デコーダーです」
- 「PIXART-αに会ってください:画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」