バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入
「バイトダンス研究者、画像生成とマルチビューディフュージョンモデルの革新的な導入:「ImageDream」の紹介」
諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキストだけを使用するシステムに比べて大きな利点をもたらします。画像は主に、言語では部分的または不完全にしか説明できない、詳細で豊かな視覚情報を提供します。例えば、画像はテクスチャ、色、空間的な関係などの細かな特徴を明確かつ即座に表現することができますが、単語の説明では同じレベルの詳細を完全に表現するためには助けが必要であり、非常に長い説明が必要になる場合もあります。システムは実際の視覚的な手がかりを直接参照することができるため、書かれた説明を解釈するよりも、複雑さや主観性に幅広いばらつきがあることがありますが、このビジュアルの特異性はより正確で詳細な3Dモデルの生成に役立ちます。
さらに、視覚的な手段を利用することで、特に言葉で自分のビジョンを表現するのが難しい人々にとって、意図した結果をより簡単かつ直接的に説明することができます。この多重モダリティの方法は、テキストの文脈の深さと視覚データの豊かさを組み合わせることで、より信頼性のある、ユーザーフレンドリーで効果的な3D制作プロセスを提供する幅広い創造的および実用的なアプリケーションに役立ちます。しかし、3Dオブジェクトの開発の代替手段として写真を使用する際には、いくつかの困難が存在します。テキストとは異なり、画像には色、テクスチャ、空間的な関係など、多くの追加要素があり、これらは単一のエンコーダ(CLIPなど)を使用して正しく分析および理解するのが難しくなります。
さらに、オブジェクトの光、形状、自己遮蔽の大きな変化は、不完全またはぼやけた3Dモデルを提供する可能性がある視点合成において、より正確で一貫性のあるものにするために、高度な計算負荷の技術が必要です。画像処理の複雑さにより、視覚情報を効果的にデコードし、多くの視点で一貫した外観を保証するために、研究者はZero123などのさまざまな拡散モデル手法を使用して2Dアイテム画像を3Dモデルに変換してきました。画像のみのシステムの1つの欠点は、合成された視点は素晴らしいように見える一方で、再構築されたモデルは時々ジオメトリの正確さや緻密なテクスチャに関して補完が必要です、特にオブジェクトの背面の視点に関してです。この問題の主な原因は、生成または合成された視点間の大きな幾何学的な不一致です。
- UCバークレーの研究者たちは、LLMCompilerを紹介しました:LLMの並列関数呼び出しパフォーマンスを最適化するLLMコンパイラ
- UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました
- Google DeepMindの研究者は、言語モデル(LM)のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code(CoC)」を提案しました
その結果、再構築時に非一致のピクセルが平均化され、ぼやけたテクスチャと丸みを帯びたジオメトリが生じます。要するに、画像条件付きの3D生成は、テキスト条件付きの生成に比べてより制限の多い最適化問題です。3Dデータの量が限られているため、正確な特徴を持つ3Dモデルを最適化することはより困難になります。最適化プロセスは訓練分布から逸脱しやすい傾向があります。例えば、訓練データセットには様々な馬のスタイルが含まれている場合、テキストの説明だけから馬を作成すると、詳細なモデルが生成される可能性があります。しかし、画像が特定の毛皮の特徴、形状、テクスチャを指定する場合、新しい視点のテクスチャ作成は教授された分布から容易に逸脱することがあります。
これらの問題に対処するために、ByteDanceの研究チームは本研究でImageDreamを提案します。研究チームは、現在のアーキテクチャに容易に組み込むことができる多階層画像プロンプトコントローラを提案します。具体的には、カノニカルカメラ座標に基づいて、生成された画像はオブジェクトの中央の正面ビューを描写しなければなりません(アイデンティティの回転とゼロの移動を使用します)。これにより、入力画像の差異を3次元への変換プロセスがよりシンプルになります。多階層コントローラによって情報伝達プロセスが合理化され、画像入力から各アーキテクチャブロックへの拡散モデルの導入が指示されます。
MVDreamのような厳格にテキストに基づいたモデルと比較して、ImageDreamは図1に示すように、与えられた画像から正確なジオメトリを持つオブジェクトを生成することで優れています。これにより、ユーザーは画像とテキストの整列を改善するために、よく開発された画像生成モデルを使用することができます。ジオメトリとテクスチャの品質に関しては、ImageDreamは現在の最先端技術(SoTA)のゼロショット単一画像3Dモデル生成器であるMagic123を凌駕しています。ImageDreamは、実験部分での定量評価とユーザーテストを通じた定性的比較を含む、これまでのSoTAの技術を凌駕していることが示されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス
- マウス用のVRゴーグルは、脳研究のために没入感のあるシナリオを作り出します
- スタンフォードの研究者が「予測音楽トランスフォーマー」を紹介:音楽作曲における創造的な制御を向上させる画期的なAIツール
- メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化
- 「オーディオジェネレーションのための新しいメタAIの基礎研究モデル、オーディオボックスに会ってください」
- ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました
- スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました