「Zero123++:一枚の画像から一貫したマルチビュー拡散ベースモデルへ」
「Zero123++:一枚の画像から統一されたマルチビュー拡散ベースモデルへの進化」
過去数年間、新興のAI生成モデルは性能、効率、生成能力の面で急速に進歩してきました。これらのモデルは大量のデータセットと2D拡散生成手法を活用して、テキスト、画像、動画、GIFなどの2Dおよびある程度の3Dメディアコンテンツを生成することが非常に可能になりました。
本記事では、Zero123++フレームワークについて詳しく説明します。これは単一のビュー入力を使用して3D整合性のある複数ビュー画像を生成する画像条件付きの拡散生成AIモデルです。Zero123++フレームワークは、事前学習された生成モデルから得られる利点を最大限に活用するため、さまざまなトレーニングおよび条件付けの手法を実装しています。本記事では、Zero123++フレームワークのアーキテクチャ、動作、および結果について詳しく説明し、単一の画像から高品質の一貫した複数ビュー画像を生成する能力を分析します。さあ、始めましょう。
Zero123とZero123++:概要
Zero123++フレームワークは、単一のビュー入力を使用して3D整合性のある複数ビュー画像を生成する画像条件付きの拡散生成AIモデルです。Zero123++フレームワークは、Zero123またはZero-1-to-3フレームワークの継続であり、ゼロショットの新規ビュー画像合成技術を活用してオープンソースの単一画像から3D変換を先導します。しかし、Zero123++フレームワークは有望なパフォーマンスを提供していますが、生成される画像には幾何学的な不整合が見られ、3Dシーンと複数ビュー画像の間のギャップがまだ存在しています。
Zero-1-to-3フレームワークは、SyncDreamer、One-2-3-45、Consistent123など、Zero123フレームワークに追加のレイヤーを付加して3D画像をより一貫した結果にするための基盤として機能します。ProlificDreamer、DreamFusion、DreamGaussianなどの他のフレームワークは、最適化ベースの手法を使用して一貫性のないモデルから3D画像を抽出します。これらの手法は効果的ですが、実装された基礎の拡散モデルが一貫して複数ビュー画像を生成できるようにすることで、結果を改善できます。したがって、Zero123++フレームワークはZero-1から3を取り、Stable Diffusionから新しいマルチビューベース拡散モデルを微調整します。
Zero-1-to-3フレームワークでは、各新規ビューは独立して生成され、このアプローチによって拡散モデルがサンプリング性を持つため、ビュー間の整合性の問題が発生します。この問題に対処するため、Zero123++フレームワークはタイリングレイアウトアプローチを採用し、オブジェクトを6つのビューで囲んだ単一の画像にし、オブジェクトのマルチビュー画像の共分布の正しいモデリングを保証します。
Zero-1-to-3フレームワークの開発者が直面するもう一つの大きな課題は、Stable Diffusionが提供する機能を効率的に活用できないことによる非効率性と追加コストです。Zero-1-to-3フレームワークがStable Diffusionで提供されるローカルまたはグローバルな条件付けメカニズムを効果的に組み込まないという2つの主な理由があります。
- 画像条件でトレーニングする際、Zero-1-to-3フレームワークはStable Diffusionが提供するローカルまたはグローバルな条件付けメカニズムを効果的に組み込んでいません。
- トレーニング中、Zero-1-to-3フレームワークは出力解像度をトレーニング解像度以下に低下させるという手法を使用しており、これによりStable Diffusionモデルの画像生成の品質が低下する可能性があります。
これらの問題に対処するため、Zero123++フレームワークは、Stable Diffusionが提供するリソースの利用を最大化し、Stable Diffusionモデルの画像生成の品質を維持するためのさまざまな条件付け手法を実装しています。
条件付けと整合性の改善
画像の条件付けとマルチビュー画像の整合性を改善するため、Zero123++フレームワークはさまざまな手法を実装しました。最も重要な目標は、事前学習されたStable Diffusionモデルから再利用する前の技術を使用することです。
マルチビュー生成
一貫した複数の視点画像を生成するためには、複数の画像の結合分布を正しくモデル化することが不可欠です。Zero-1-to-3フレームワークでは、複数の画像間の相関関係は無視されます。なぜなら、フレームワークは各画像について、条件付き周辺分布を独立かつ個別にモデル化するからです。しかし、Zero123++フレームワークでは、一貫した複数の視点生成のために、6つの画像を1つのフレーム/画像にタイリングするレイアウトアプローチが採用され、そのプロセスは次の画像で示されています。
さらに、モデルをカメラの姿勢でトレーニングする際、オブジェクトの方向が明確化される傾向があることがわかっています。この方向性をはっきりさせるために、Zero-1-to-3フレームワークでは、入力の仰角と相対方位でカメラの姿勢をトレーニングします。このアプローチを実装するには、入力の視点の仰角を知る必要があります。これにより、新しい入力視点間の相対姿勢を決定することができます。この仰角を知るために、フレームワークではしばしば仰角推定モジュールが追加されますが、このアプローチはしばしばパイプライン上の追加エラーのコストが発生します。
Noise Schedule
スケーリングされた線形スケジュールは、Stable Diffusionの元々のノイズスケジュールであり、主にローカルの詳細に焦点を当てています。しかし、以下の画像で見られるように、低いSNR(信号対雑音比)または信号対雑音比を持つ非常に少ないステップがあります。
低信号対雑音比のこのステップは、ノイズ低減段階で早期に発生します。この段階は、グローバルな低周波構造を決定するために重要です。干渉やトレーニング中にノイズ低減段階のステップ数を減らすと、構造の変化が大きくなる傾向があります。このセットアップは単一の画像生成には理想的ですが、フレームワークが異なる視点間でのグローバルな一貫性を確保する能力を制限する可能性があります。このハードルを乗り越えるために、Zero123++フレームワークは、Stable Diffusion 2 v-predictionフレームワーク上のLoRAモデルを微調整して、おもちゃのタスクを実行し、その結果は以下に示されています。
スケーリングされた線形ノイズスケジュールでは、LoRAモデルは過学習せず、画像をわずかに白色化するだけです。一方、線形ノイズスケジュールを使用する場合、LoRAフレームワークは入力プロンプトに関係なく、空白の画像を生成することができます。これは、ノイズスケジュールがフレームワークの新しい要件に適応する能力に与える影響を示しています。
Scaled Reference Attention for Local Conditions
Zero-1-to-3フレームワークでは、シングルビュー入力または条件付け画像は、画像条件付けのためにノイズをかけるために、特徴次元でノイズがかかった入力と連結されます。
この連結により、対象画像と入力の間に正しいピクセル単位の空間的対応が生じません。適切なローカル条件付け入力を提供するために、Zero123++フレームワークでは、スケーリングされたReference Attentionが使用されます。このアプローチでは、ノイズ低減UNetモデルが余分な参照画像に基づいて実行され、モデルの入力がノイズ低減された際に、値行列とSelf-Attentionキーが参照画像から対応するAttentionレイヤーに付加されます。このアプローチは以下の図で示されています。
Reference Attentionアプローチは、参照画像と似たテクスチャを共有し、セマンティックコンテンツを生成する拡散モデルをガイドすることができます。また、ファインチューニングにより、Reference Attentionアプローチはスケーリングされた潜在的な優れた結果を生成します。
Global Conditioning : FlexDiffuse
元のStable Diffusionアプローチでは、テキスト埋め込みがグローバル埋め込みの唯一のソースであり、アプローチはテキストエンコーダとしてCLIPフレームワークを使用して、テキスト埋め込みとモデルの潜在的な相互対応を行います。結果として、開発者はテキスト空間とCLIP画像の間の整列を使用して、グローバルな画像条件付けに使用することができます。
Zero123++フレームワークでは、グローバルイメージ条件づけをフレームワークに組み込むため、トレーニング可能なバリアントの線形ガイダンスメカニズムを使用することが提案されています。これにより、最小限の微調整が必要となり、結果は以下の画像で示されています。見える領域に対応する満足のいくコンテンツがフレームワークによって生成されますが、見えない領域のフレームワークによる画像の品質は著しく低下してしまいます。これは、モデルがオブジェクトのグローバルな意味を推論する能力の不足によるものです。
モデルアーキテクチャ
Zero123++フレームワークは、記事で言及されているさまざまなアプローチと技術を使用して、Stable Diffusion 2vモデルを基にトレーニングされています。Zero123++フレームワークは、ランダムなHDRI照明でレンダリングされたObjaverseデータセットで事前トレーニングされます。フレームワークはまた、さらなる微調整の必要量を最小限に抑え、前述のStable Diffusionで可能な限り多くを保持するためにStable Diffusion Image Variationsフレームワークで使用される段階的トレーニングスケジュールアプローチを採用しています。
Zero123++フレームワークの動作またはアーキテクチャは、シーケンシャルなステップまたはフェーズにさらに分割することができます。最初のフェーズでは、フレームワークはAdamWを最適化手法とし、クロスアテンションレイヤーと自己アテンションレイヤーのKV行列を微調整します。ウォームアップステップは1000回で、コサイン学習率スケジュールで7×10-5に最大化されます。2番目のフェーズでは、フレームワークは高度に保守的な一定の学習率を採用し、2000回のウォームアップセットを使用し、トレーニング中の効率を最大化するためにMin-SNRアプローチを使用します。
Zero123++:結果とパフォーマンスの比較
質的パフォーマンス
Zero123++フレームワークの品質に基づいてパフォーマンスを評価するために、コンテンツ生成の最も優れた現行フレームワークであるSyncDreamerおよびZero-1-to-3-XLと比較します。フレームワークは、異なるスコープを持つ4つの入力イメージと比較されます。最初のイメージはObjaverseデータセットから直接取得された電気おもちゃの猫であり、オブジェクトの後部に大きな不確実性があります。2番目は消火器の画像で、3番目はロケットに座っている犬の画像で、これはSDXLモデルによって生成されました。最後の画像はアニメイラストです。フレームワークに必要なエレベーションステップは、One-2-3-4-5フレームワークのエレベーション推定手法を使用して達成されます。背景の削除にはSAMフレームワークを使用します。Zero123++フレームワークは、高品質の多視点画像を一貫して生成し、ドメイン外の2DイラストやAI生成画像にも適切に汎化する能力を持っています。
定量的分析
Zero123++フレームワークを最先端のZero-1-to-3およびZero-1to-3 XLフレームワークと定量的に比較するために、開発者はLPIPS(Learned Perceptual Image Patch Similarity)スコアを使用してこれらのモデルをObjaverseデータセットのバリデーションスプリットデータ(一部)で評価します。マルチビュー画像生成のモデルのパフォーマンスを評価するために、開発者はグラウンドトゥルーリファレンスイメージと6つの生成されたイメージをタイリングし、LPIPSスコアを計算します。結果は以下に示されており、はっきりと見ることができますが、Zero123++フレームワークはバリデーションスプリットセットで最高のパフォーマンスを達成しています。
テキストからマルチビュー評価
Zero123++フレームワークのテキストからマルチビューコンテンツ生成の能力を評価するために、開発者はまずテキストプロンプトを使用してイメージを生成するためにSDXLフレームワークを使用し、その生成されたイメージにZero123++フレームワークを適用します。結果は以下の画像で示されており、ゼロ-1-to-3フレームワークと比較して一貫したマルチビュー生成が保証されていないゼロ123++フレームワークは、テキストからイメージからマルチビューへのアプローチまたはパイプラインを実装することにより、一貫性のある、リアルで詳細なマルチビュー画像を返します。
Zero123++ Depth ControlNet
Zero123++フレームワークの基本に加えて、開発者はオリジナルのフレームワークを使用したControlNetアーキテクチャを利用した、正規化された線形画像をRGB画像と共にレンダリングし、深度知覚を使用してZero123++フレームワークのジオメトリを制御するためのDepth ControlNet Zero123++をリリースしました。
結論
本記事では、シングルビュー入力を使用して3D一貫した複数視点画像を生成するためのイメージコンディショニング拡散生成AIモデルであるZero123++について話しました。事前学習済みの生成モデルから得られる利点を最大化するため、Zero123++フレームワークは多くのトレーニングとコンディショニング手法を実装し、棚から降ろした拡散画像モデルの微調整にかかる労力を最小限に抑えるようにしています。さらに、Zero123++フレームワークが現在の最先端のフレームワークと比べて優れた結果を達成できるようにするために、Zero123++フレームワークが実装した異なる手法と改良についても説明しました。
しかし、効率性と高品質なマルチビュー画像の一貫した生成能力を持つ一方で、Zero123++フレームワークにはまだ改善の余地があります。グローバルな一貫性の要件を満たすことができないZero123++の課題を解決する2段階リファイナーモデルや、より高品質な画像を生成できるようにするための追加のスケールアップなど、研究の可能性がある領域が存在します。
- 2段階リファイナーモデル: グローバルな一貫性の要件を満たせるかもしれません。
- 追加のスケールアップ: より高品質な画像を生成する能力をさらに高めることができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles