「2Dから3Dへ:アラインドジオメトリックプライオリティを用いたテキストから3D生成の一貫性向上」

「2Dから3Dへ:アラインドジオメトリックプライオリティを活用した、テキストからの3D生成の一貫性向上」

2D画像を3Dオブジェクトに変換することは、テキストから3D生成のために困難なタスクです。これは、2D拡散モデルがビューに関する事前情報のみを学習し、リフティング中に3D空間の理解を持っていないためです。この制約の結果として、マルチビューの不整合問題が発生します。つまり、3Dオブジェクトはすべての視点から一貫していません。たとえば、2D画像のキューブを3D空間にリフトすると、モデルは一つの視点からは完璧なキューブを生成するかもしれませんが、他の視点からは歪んでしまう可能性があります。

幾何学的な整合性の問題に対処するために、研究者グループはSweetDreamerと呼ばれる新しい手法を導入しました。この手法では、リフティング中にはっきりした3D形状を追加し、拡散モデルの2D幾何学的な事前情報をそれと整列させます。この手法では、2D拡散モデルを視点に注意するように微調整し(オブジェクトの外観が視点によってどのように変化するかを理解する)、標準的な向きの3Dオブジェクトのビュー固有の座標マップを生成します。このアプローチは、すべての視点から一貫した3Dオブジェクトを効果的に生成するのに非常に効果的です。

研究者は、3Dの一貫性のない結果の主な原因が幾何学的な整合性にあることを認識しており、そのため、彼らの目標は、2D事前情報に3Dオブジェクトを生成する能力を持たせ、一貫して見える3Dオブジェクトを一般化性を保持しつつ生成することです。

研究者が提案した手法は、さまざまな標準的な向きと正規化された3Dモデルからなる包括的な3Dデータセットを活用しています。ランダムな角度から深度マップがレンダリングされ、標準的な座標マップに変換されます。そして、2D拡散モデルを微調整して特定のビューと整列された座標マップを生成し、2D拡散の幾何学的な事前情報を整列させます。最後に、整列した幾何学的な事前情報はさまざまなテキストから3Dシステムにスムーズに統合され、整合性の問題を効果的に軽減し、多様で高品質な3Dコンテンツを生成します。

DMTetとNeRFは、テキストから3D生成でよく使われる2つの共通の3D表現です。研究論文では、著者たちは彼らの整列した幾何学的な事前情報を、DMTetベースおよびNeRFベースのテキストから3Dパイプラインの両方に統合することで、生成された3Dオブジェクトの品質を向上させることを示しました。これは、彼らのアプローチの汎用性と、さまざまなテキストから3Dシステムのパフォーマンスを向上させる可能性を示しています。

テキストから3Dプロセスの結果を評価するための確立されたメトリックが不足しているため、研究者は3Dの複数のビューの一貫性を評価することに焦点を当てました。彼らはDreamFusionギャラリーからランダムに80のプロンプトを選択し、各手法を使用してテキストから3D生成を行いました。3Dの不整合性は手動でチェックして成功率を報告しました。研究者は、彼らの手法が他の手法を大幅に上回ることを発見しました。彼らの成功率は両方のパイプライン(DMTetおよびNeRF)で85%以上であり、他の手法は約30%でした。

結論として、SweetDreamers手法は、テキストから3D生成で最先端のパフォーマンスを実現する新しい方法を提供しています。マルチビューの一貫性の問題がない幅広いプロンプトから結果を生成することができます。これは、他の以前の手法と比較して優れたパフォーマンスを提供し、研究者は自分たちの研究が限られた3Dデータを使用して2D拡散事前情報を強化する新たな方向を開くと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Taplio LinkedInの成長に最適なAIツール

Taplioは、LinkedIn上で個人ブランドを成長させるのをサポートするために設計されたAIツールです

人工知能

オープンソースとオープンイノベーションによるAIシーンの破壊

AIの運命は、オープンソースとオープンイノベーションを活用する小規模なVoAGI企業によって追い越されることですGoogleやOpen...

機械学習

コードのための大規模な言語モデルの構築とトレーニング:StarCoderへの深い探求

イントロダクション こんにちは、テック愛好家の皆さん!今日は、大規模な言語モデル(LLM)を構築してトレーニングする魅力...

データサイエンス

AIがセキュリティを向上させる方法

AIはマルウェアの検出、サイバー脅威の特定と対応、機密データの保護、そして重要なインフラストラクチャのセキュリティ向上...

人工知能

「DALL·E 3の最も優れた20の使用例とプロンプト」

OpenAIは、テキストから画像を生成するプラットフォームであるDALL-E 3の大規模なアップデートを発表しましたこのアップデー...

データサイエンス

LLM幻覚を軽減する方法

AIの幻覚は、訓練データの欠陥と過度の複雑さから生じます幻覚を減らすための研究に基づく戦略を発見しましょう