このAI研究では、詳細な全身のジオメトリと高品質のテクスチャを持つ、リアルな3Dの服を着た人物を、単一の画像から再構築するためのテクノロジー(TeCH)を提案します
このAI研究では、単一の画像からリアルな3Dの服を着た人物を再構築するテクノロジー(TeCH)を提案します
ハイフィデリティ
ゲーム、ソーシャルネットワーキング、教育、eコマース、没入型テレプレゼンスなど、多くの拡張現実と仮想現実のアプリケーションにおいて、3Dデジタル人物は不可欠です。多くの手法は、野生の写真から簡単にデジタル人物を作成するために、単一の写真から3Dの服を着た人物の姿を再構築することに注力しています。しかし、非可視領域の観測の欠如により、これは以前の技術の進展にもかかわらず、この問題が不適切に見えるようになりました。色や法線推定などの明らかな視覚的手がかりを使用して、見えない部分(背面など)を予測することに失敗し、ぼやけたテクスチャと滑らかなジオメトリを生じさせました。その結果、さまざまな視点からこれらの再構築を見ると、不一致が現れます。マルチビュースーパービジョンは、この問題に対する有効な答えです。ただし、入力として単一の画像を使用しても可能でしょうか?この点で、彼らはTeCHを潜在的な解決策として提案しています。過去の研究とは異なり、TeCHは入力画像から取得したテキスト情報をカスタマイズされたテキストから画像への拡散モデルであるDreamBoothと組み合わせて再構築プロセスをガイドします。これまでの研究では、主に明らかな正面信号と非視覚領域との関係を研究してきました。
彼らは、特に単一の入力画像からセマンティック情報を主題の独自で詳細な外観に分離します。これは言葉で正確に説明することが難しいです:
1)衣服の解析モデル(SegFormer)と事前学習済みのビジュアル言語VQAモデル(BLIP)を使用して、入力画像から記述的なセマンティックプロンプトの明示的な解析を行います。これらのプロンプトには、色、服のスタイル、ヘアスタイル、顔の特徴の具体的な説明が含まれます。
- 「MITとハーバードの研究者が提案する(FAn):SOTAコンピュータビジョンとロボティクスシステムの間のギャップを埋める包括的なAIシステム- 任意のオブジェクトのセグメンテーション、検出、追跡、および追従のためのエンドツーエンドのソリューションを提供する」
- メタスの新しいテキストから画像へのモデル – CM3leon論文の説明
- 「ライス大学とIITカーンプールは、共同研究賞の受賞者を発表します」という文を日本語に翻訳すると、以下のようになります: 「ライス大学とIITカーンプールは、共同研究賞の受賞者を発表します」
2)カスタマイズされたテキストから画像への拡散モデルは、言葉で説明できない外観情報を埋め込みます。これにより、主題の独特な外観と詳細な特徴が暗黙的に決定されます。彼らは、マルチビュースコア蒸留サンプリング(SDS)、オリジナルの観測に基づく再構築損失、棚卸しの法線推定器から得られる正則化を使用して、これらの情報源に基づいて3D人間を最適化します。これにより、再構築された3D人間モデルの忠実度が向上し、元のアイデンティティが保持されます。
浙江大学、マックスプランク知能システム研究所、モハメド・ビン・ザイード人工知能大学、北京大学の研究者たちは、DMTetに基づくハイブリッド3D表現を提案し、合理的な価格で高解像度のジオメトリを表現します。一般的な体の形を正確に描写するために、ハイブリッド3D表現は明示的な四面体グリッドと暗黙のRGBおよび符号化距離関数(SDF)フィールドを組み合わせています。最初に、この四面体グリッドを最適化し、メッシュとして表現されるジオメトリを抽出し、次に、テクスチャを2段階の最適化手法で最適化します。Techにより、統一されたカラースキームとパターンを持つ正確な3Dモデルの再現が可能になります。
その結果、キャラクターアニメーション、新しい視点のレンダリング、形状とテクスチャの操作を含む多くの下流アプリケーションが容易になります。3D服を着た人間のデータセット(CAPE)および衣装(THuman2.0)を対象とした定量的なテストでは、Techはレンダリングの品質においてSOTA手法を上回ることが証明されています。また、実世界の写真と知覚的な研究に基づく定性的な評価によると、Techはレンダリング品質においてSOTA手法を上回っています。このコードは研究目的で公開されます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- CMUの研究者たちは、視覚的な先行知識をロボティクスのタスクに転送するためのシンプルなディスタンスラーニングAIメソッドを開発しました:ベースラインに比べてポリシーラーニングを20%改善
- 「MITとハーバードの研究者は、脳内の生物学的な要素を使ってトランスフォーマーを作る方法を説明する可能性のある仮説を提出しました」
- Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています
- 「LangChainとGPT-4を使用した多言語対応のFEMAディザスターボットの研究」
- コンピュータ科学の研究者たちは、モジュラーで柔軟なロボットを作りました
- MITの研究者は、ディープラーニングと物理学を組み合わせて、動きによって損傷を受けたMRIスキャンを修正する方法を開発しました
- 「NTUとSenseTimeの研究者が提案するSHERF:単一の入力画像からアニメーション可能な3D人間モデルを復元するための汎用的なHuman NeRFモデル」