このAI研究では、詳細な全身のジオメトリと高品質のテクスチャを持つ、リアルな3Dの服を着た人物を、単一の画像から再構築するためのテクノロジー(TeCH)を提案します

このAI研究では、単一の画像からリアルな3Dの服を着た人物を再構築するテクノロジー(TeCH)を提案します

ハイフィデリティ
ゲーム、ソーシャルネットワーキング、教育、eコマース、没入型テレプレゼンスなど、多くの拡張現実と仮想現実のアプリケーションにおいて、3Dデジタル人物は不可欠です。多くの手法は、野生の写真から簡単にデジタル人物を作成するために、単一の写真から3Dの服を着た人物の姿を再構築することに注力しています。しかし、非可視領域の観測の欠如により、これは以前の技術の進展にもかかわらず、この問題が不適切に見えるようになりました。色や法線推定などの明らかな視覚的手がかりを使用して、見えない部分(背面など)を予測することに失敗し、ぼやけたテクスチャと滑らかなジオメトリを生じさせました。その結果、さまざまな視点からこれらの再構築を見ると、不一致が現れます。マルチビュースーパービジョンは、この問題に対する有効な答えです。ただし、入力として単一の画像を使用しても可能でしょうか?この点で、彼らはTeCHを潜在的な解決策として提案しています。過去の研究とは異なり、TeCHは入力画像から取得したテキスト情報をカスタマイズされたテキストから画像への拡散モデルであるDreamBoothと組み合わせて再構築プロセスをガイドします。これまでの研究では、主に明らかな正面信号と非視覚領域との関係を研究してきました。

彼らは、特に単一の入力画像からセマンティック情報を主題の独自で詳細な外観に分離します。これは言葉で正確に説明することが難しいです:

1)衣服の解析モデル(SegFormer)と事前学習済みのビジュアル言語VQAモデル(BLIP)を使用して、入力画像から記述的なセマンティックプロンプトの明示的な解析を行います。これらのプロンプトには、色、服のスタイル、ヘアスタイル、顔の特徴の具体的な説明が含まれます。

2)カスタマイズされたテキストから画像への拡散モデルは、言葉で説明できない外観情報を埋め込みます。これにより、主題の独特な外観と詳細な特徴が暗黙的に決定されます。彼らは、マルチビュースコア蒸留サンプリング(SDS)、オリジナルの観測に基づく再構築損失、棚卸しの法線推定器から得られる正則化を使用して、これらの情報源に基づいて3D人間を最適化します。これにより、再構築された3D人間モデルの忠実度が向上し、元のアイデンティティが保持されます。

図1は、TeCHが単一の写真からリアルな、3Dの服を着た人物を作成できることを示しています。

浙江大学、マックスプランク知能システム研究所、モハメド・ビン・ザイード人工知能大学、北京大学の研究者たちは、DMTetに基づくハイブリッド3D表現を提案し、合理的な価格で高解像度のジオメトリを表現します。一般的な体の形を正確に描写するために、ハイブリッド3D表現は明示的な四面体グリッドと暗黙のRGBおよび符号化距離関数(SDF)フィールドを組み合わせています。最初に、この四面体グリッドを最適化し、メッシュとして表現されるジオメトリを抽出し、次に、テクスチャを2段階の最適化手法で最適化します。Techにより、統一されたカラースキームとパターンを持つ正確な3Dモデルの再現が可能になります。

その結果、キャラクターアニメーション、新しい視点のレンダリング、形状とテクスチャの操作を含む多くの下流アプリケーションが容易になります。3D服を着た人間のデータセット(CAPE)および衣装(THuman2.0)を対象とした定量的なテストでは、Techはレンダリングの品質においてSOTA手法を上回ることが証明されています。また、実世界の写真と知覚的な研究に基づく定性的な評価によると、Techはレンダリング品質においてSOTA手法を上回っています。このコードは研究目的で公開されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ETHチューリッヒとマイクロソフトの研究者が、大規模な言語モデルの推論を強化するための人工知能フレームワーク「SCREWS」を紹介しました

大型言語モデル(LLM)は、さまざまな推論タスクで成功しています。意図した目的が達成されることを保証するために、LLMの結...

データサイエンス

軌跡予測のためのマップマッチング

この記事では、ノイズのあるGPSセンサーからサンプリングされた過去のトリップのデータベースを使用して、デジタル道路ネット...

AIニュース

10倍の生産性を向上させるためのTop 10 VS Code拡張機能

Path Intellisense C#、VB.NET、またはF#を使用している場合、Visual Studioの拡張機能であるPath Intellisenseのおかげで、P...

データサイエンス

LangChainとPinecone Vector Databaseを使用したカスタムQ&Aアプリケーションの構築

イントロダクション 大規模な言語モデルの登場は、現代における最もエキサイティングな技術の進展の一つです。これにより、人...

機械学習

大規模言語モデル:RoBERTa — ロバストに最適化されたBERTアプローチ

BERTモデルの登場は、自然言語処理(NLP)の大きな進歩をもたらしましたBERTはTransformerからアーキテクチャを派生させ、言...

人工知能

AIのレンズを通じた世界の歴史

人工知能の進歩、特に大規模な言語モデルにより、歴史研究や教育においては興奮すべき可能性が広がっていますしかし、その方...