バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

「バイトダンス研究者、画像生成とマルチビューディフュージョンモデルの革新的な導入:「ImageDream」の紹介」

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキストだけを使用するシステムに比べて大きな利点をもたらします。画像は主に、言語では部分的または不完全にしか説明できない、詳細で豊かな視覚情報を提供します。例えば、画像はテクスチャ、色、空間的な関係などの細かな特徴を明確かつ即座に表現することができますが、単語の説明では同じレベルの詳細を完全に表現するためには助けが必要であり、非常に長い説明が必要になる場合もあります。システムは実際の視覚的な手がかりを直接参照することができるため、書かれた説明を解釈するよりも、複雑さや主観性に幅広いばらつきがあることがありますが、このビジュアルの特異性はより正確で詳細な3Dモデルの生成に役立ちます。

さらに、視覚的な手段を利用することで、特に言葉で自分のビジョンを表現するのが難しい人々にとって、意図した結果をより簡単かつ直接的に説明することができます。この多重モダリティの方法は、テキストの文脈の深さと視覚データの豊かさを組み合わせることで、より信頼性のある、ユーザーフレンドリーで効果的な3D制作プロセスを提供する幅広い創造的および実用的なアプリケーションに役立ちます。しかし、3Dオブジェクトの開発の代替手段として写真を使用する際には、いくつかの困難が存在します。テキストとは異なり、画像には色、テクスチャ、空間的な関係など、多くの追加要素があり、これらは単一のエンコーダ(CLIPなど)を使用して正しく分析および理解するのが難しくなります。

さらに、オブジェクトの光、形状、自己遮蔽の大きな変化は、不完全またはぼやけた3Dモデルを提供する可能性がある視点合成において、より正確で一貫性のあるものにするために、高度な計算負荷の技術が必要です。画像処理の複雑さにより、視覚情報を効果的にデコードし、多くの視点で一貫した外観を保証するために、研究者はZero123などのさまざまな拡散モデル手法を使用して2Dアイテム画像を3Dモデルに変換してきました。画像のみのシステムの1つの欠点は、合成された視点は素晴らしいように見える一方で、再構築されたモデルは時々ジオメトリの正確さや緻密なテクスチャに関して補完が必要です、特にオブジェクトの背面の視点に関してです。この問題の主な原因は、生成または合成された視点間の大きな幾何学的な不一致です。

その結果、再構築時に非一致のピクセルが平均化され、ぼやけたテクスチャと丸みを帯びたジオメトリが生じます。要するに、画像条件付きの3D生成は、テキスト条件付きの生成に比べてより制限の多い最適化問題です。3Dデータの量が限られているため、正確な特徴を持つ3Dモデルを最適化することはより困難になります。最適化プロセスは訓練分布から逸脱しやすい傾向があります。例えば、訓練データセットには様々な馬のスタイルが含まれている場合、テキストの説明だけから馬を作成すると、詳細なモデルが生成される可能性があります。しかし、画像が特定の毛皮の特徴、形状、テクスチャを指定する場合、新しい視点のテクスチャ作成は教授された分布から容易に逸脱することがあります。

これらの問題に対処するために、ByteDanceの研究チームは本研究でImageDreamを提案します。研究チームは、現在のアーキテクチャに容易に組み込むことができる多階層画像プロンプトコントローラを提案します。具体的には、カノニカルカメラ座標に基づいて、生成された画像はオブジェクトの中央の正面ビューを描写しなければなりません(アイデンティティの回転とゼロの移動を使用します)。これにより、入力画像の差異を3次元への変換プロセスがよりシンプルになります。多階層コントローラによって情報伝達プロセスが合理化され、画像入力から各アーキテクチャブロックへの拡散モデルの導入が指示されます。

図1: たった1枚の写真で、画期的なフレームワークImageDreamはあらゆる角度から高品質な3Dモデルを作成します。以前のSoTAであるMagic123などに比べて、3Dジオメトリの品質を大幅に向上させています。さらに重要なのは、MVDreamと比較して、作成された画像プロンプトからのテキストの優れた画像対応を保持していることです。さまざまな技術を使用して作成されたアイテムの8つのビューが以下に示されており、ImageDreamによって生成されたモデルによって描かれた一致する法線マップが最後の行に表示されています。

MVDreamのような厳格にテキストに基づいたモデルと比較して、ImageDreamは図1に示すように、与えられた画像から正確なジオメトリを持つオブジェクトを生成することで優れています。これにより、ユーザーは画像とテキストの整列を改善するために、よく開発された画像生成モデルを使用することができます。ジオメトリとテクスチャの品質に関しては、ImageDreamは現在の最先端技術(SoTA)のゼロショット単一画像3Dモデル生成器であるMagic123を凌駕しています。ImageDreamは、実験部分での定量評価とユーザーテストを通じた定性的比較を含む、これまでのSoTAの技術を凌駕していることが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「アマゾン対アリババ:会話型AI巨大企業の戦い」

テクノロジーの絶え間ない進化の中で、2つのグローバル企業が会話型AIの領域で真っ向勝負を繰り広げる。eコマースの巨人であ...

AIニュース

「AIモデルと化学者の洞察を組み合わせて、一度のステップで逆合成を予測する」

有機合成では、有機的なプロセスを通じて分子が構築されるため、合成化学の重要な分野です。コンピュータ支援有機合成におけ...

コンピュータサイエンス

「新たなホワイトハウスの協定に基づき、AIの巨大企業が自社のアルゴリズムに外部からの調査を許可することを誓います」

「GoogleやOpenAIなど、主要なAI開発者たちは、バイアスのある出力などの問題をチェックするとバイデン政権に約束しました」

機械学習

「AppleがオープンソースのMLフレームワーク「MLX」を発表」

機械学習の分野における協力とイノベーションを促進する重要な進展として、AppleはMLXを発表しました。MLXは、Appleの優れた...

AIニュース

「Googleのジェミニは私たちが期待していた生成AIモデルではありません」

DeepMindの製品VPであるEli Collins氏は、Gemini Ultraがテキスト、画像、音声、コードの「微妙な」情報を理解できると主張し...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...