「2Dから3Dへ:アラインドジオメトリックプライオリティを用いたテキストから3D生成の一貫性向上」

「2Dから3Dへ:アラインドジオメトリックプライオリティを活用した、テキストからの3D生成の一貫性向上」

2D画像を3Dオブジェクトに変換することは、テキストから3D生成のために困難なタスクです。これは、2D拡散モデルがビューに関する事前情報のみを学習し、リフティング中に3D空間の理解を持っていないためです。この制約の結果として、マルチビューの不整合問題が発生します。つまり、3Dオブジェクトはすべての視点から一貫していません。たとえば、2D画像のキューブを3D空間にリフトすると、モデルは一つの視点からは完璧なキューブを生成するかもしれませんが、他の視点からは歪んでしまう可能性があります。

幾何学的な整合性の問題に対処するために、研究者グループはSweetDreamerと呼ばれる新しい手法を導入しました。この手法では、リフティング中にはっきりした3D形状を追加し、拡散モデルの2D幾何学的な事前情報をそれと整列させます。この手法では、2D拡散モデルを視点に注意するように微調整し(オブジェクトの外観が視点によってどのように変化するかを理解する)、標準的な向きの3Dオブジェクトのビュー固有の座標マップを生成します。このアプローチは、すべての視点から一貫した3Dオブジェクトを効果的に生成するのに非常に効果的です。

研究者は、3Dの一貫性のない結果の主な原因が幾何学的な整合性にあることを認識しており、そのため、彼らの目標は、2D事前情報に3Dオブジェクトを生成する能力を持たせ、一貫して見える3Dオブジェクトを一般化性を保持しつつ生成することです。

研究者が提案した手法は、さまざまな標準的な向きと正規化された3Dモデルからなる包括的な3Dデータセットを活用しています。ランダムな角度から深度マップがレンダリングされ、標準的な座標マップに変換されます。そして、2D拡散モデルを微調整して特定のビューと整列された座標マップを生成し、2D拡散の幾何学的な事前情報を整列させます。最後に、整列した幾何学的な事前情報はさまざまなテキストから3Dシステムにスムーズに統合され、整合性の問題を効果的に軽減し、多様で高品質な3Dコンテンツを生成します。

DMTetとNeRFは、テキストから3D生成でよく使われる2つの共通の3D表現です。研究論文では、著者たちは彼らの整列した幾何学的な事前情報を、DMTetベースおよびNeRFベースのテキストから3Dパイプラインの両方に統合することで、生成された3Dオブジェクトの品質を向上させることを示しました。これは、彼らのアプローチの汎用性と、さまざまなテキストから3Dシステムのパフォーマンスを向上させる可能性を示しています。

テキストから3Dプロセスの結果を評価するための確立されたメトリックが不足しているため、研究者は3Dの複数のビューの一貫性を評価することに焦点を当てました。彼らはDreamFusionギャラリーからランダムに80のプロンプトを選択し、各手法を使用してテキストから3D生成を行いました。3Dの不整合性は手動でチェックして成功率を報告しました。研究者は、彼らの手法が他の手法を大幅に上回ることを発見しました。彼らの成功率は両方のパイプライン(DMTetおよびNeRF)で85%以上であり、他の手法は約30%でした。

結論として、SweetDreamers手法は、テキストから3D生成で最先端のパフォーマンスを実現する新しい方法を提供しています。マルチビューの一貫性の問題がない幅広いプロンプトから結果を生成することができます。これは、他の以前の手法と比較して優れたパフォーマンスを提供し、研究者は自分たちの研究が限られた3Dデータを使用して2D拡散事前情報を強化する新たな方向を開くと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレース...

機械学習

Microsoft BingはNVIDIA Tritonを使用して広告配信を高速化

Jiusheng Chen氏のチームは加速しました。 彼らは、NVIDIA Triton Inference ServerをNVIDIA A100 Tensor Core GPUで実行する...

人工知能

バードの未来展望:よりグローバルで、よりビジュアル的で、より統合されたもの

「Bardのウェイトリストを終了し、より多くの地域をサポートするようになり、画像を導入し、パートナーアプリと連携すること...

機械学習

「トランスフォーマーの簡素化:理解できる単語を使った最先端の自然言語処理(NLP)-パート2- 入力」

ドラゴンは卵から孵り、赤ちゃんはおなかから飛び出し、AIに生成されたテキストは入力から始まります私たちはみんなどこかか...

機械学習

KPMGのジェネレーティブAIの未来への飛躍

驚くべき出来事の中で、コンサルティングと金融の世界は、生成型AIの台頭により、変革の旅を経験しています。ビッグフォーの...

AI研究

「SimCLRの最大の問題を修正する〜BYOL論文の解説」

SimCLRは対比学習のアイデアを成功裏に実装し、当時新たな最先端の性能を達成しました!それにもかかわらず、このアイデアに...