このAI研究では、詳細な全身のジオメトリと高品質のテクスチャを持つ、リアルな3Dの服を着た人物を、単一の画像から再構築するためのテクノロジー(TeCH)を提案します

このAI研究では、単一の画像からリアルな3Dの服を着た人物を再構築するテクノロジー(TeCH)を提案します

ハイフィデリティ
ゲーム、ソーシャルネットワーキング、教育、eコマース、没入型テレプレゼンスなど、多くの拡張現実と仮想現実のアプリケーションにおいて、3Dデジタル人物は不可欠です。多くの手法は、野生の写真から簡単にデジタル人物を作成するために、単一の写真から3Dの服を着た人物の姿を再構築することに注力しています。しかし、非可視領域の観測の欠如により、これは以前の技術の進展にもかかわらず、この問題が不適切に見えるようになりました。色や法線推定などの明らかな視覚的手がかりを使用して、見えない部分(背面など)を予測することに失敗し、ぼやけたテクスチャと滑らかなジオメトリを生じさせました。その結果、さまざまな視点からこれらの再構築を見ると、不一致が現れます。マルチビュースーパービジョンは、この問題に対する有効な答えです。ただし、入力として単一の画像を使用しても可能でしょうか?この点で、彼らはTeCHを潜在的な解決策として提案しています。過去の研究とは異なり、TeCHは入力画像から取得したテキスト情報をカスタマイズされたテキストから画像への拡散モデルであるDreamBoothと組み合わせて再構築プロセスをガイドします。これまでの研究では、主に明らかな正面信号と非視覚領域との関係を研究してきました。

彼らは、特に単一の入力画像からセマンティック情報を主題の独自で詳細な外観に分離します。これは言葉で正確に説明することが難しいです:

1)衣服の解析モデル(SegFormer)と事前学習済みのビジュアル言語VQAモデル(BLIP)を使用して、入力画像から記述的なセマンティックプロンプトの明示的な解析を行います。これらのプロンプトには、色、服のスタイル、ヘアスタイル、顔の特徴の具体的な説明が含まれます。

2)カスタマイズされたテキストから画像への拡散モデルは、言葉で説明できない外観情報を埋め込みます。これにより、主題の独特な外観と詳細な特徴が暗黙的に決定されます。彼らは、マルチビュースコア蒸留サンプリング(SDS)、オリジナルの観測に基づく再構築損失、棚卸しの法線推定器から得られる正則化を使用して、これらの情報源に基づいて3D人間を最適化します。これにより、再構築された3D人間モデルの忠実度が向上し、元のアイデンティティが保持されます。

図1は、TeCHが単一の写真からリアルな、3Dの服を着た人物を作成できることを示しています。

浙江大学、マックスプランク知能システム研究所、モハメド・ビン・ザイード人工知能大学、北京大学の研究者たちは、DMTetに基づくハイブリッド3D表現を提案し、合理的な価格で高解像度のジオメトリを表現します。一般的な体の形を正確に描写するために、ハイブリッド3D表現は明示的な四面体グリッドと暗黙のRGBおよび符号化距離関数(SDF)フィールドを組み合わせています。最初に、この四面体グリッドを最適化し、メッシュとして表現されるジオメトリを抽出し、次に、テクスチャを2段階の最適化手法で最適化します。Techにより、統一されたカラースキームとパターンを持つ正確な3Dモデルの再現が可能になります。

その結果、キャラクターアニメーション、新しい視点のレンダリング、形状とテクスチャの操作を含む多くの下流アプリケーションが容易になります。3D服を着た人間のデータセット(CAPE)および衣装(THuman2.0)を対象とした定量的なテストでは、Techはレンダリングの品質においてSOTA手法を上回ることが証明されています。また、実世界の写真と知覚的な研究に基づく定性的な評価によると、Techはレンダリング品質においてSOTA手法を上回っています。このコードは研究目的で公開されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

複雑なタスクの実行におけるロボットの強化:Meta AIが人間の行動のインターネット動画を使用して視覚的な手がかりモデルを開発する

メタAIは、先進的な人工知能(AI)研究機関であり、最近、ロボティクスの分野を革命的に変えると約束する画期的なアルゴリズ...

AIニュース

「デベロッパー用の15以上のAIツール(2023年12月)」

“`html GitHub Copilot GitHub Copilotは、市場をリードするAIによるコーディングアシスタントです。開発者が効率的に...

AI研究

このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています

マイクロソフトの研究者が、ドメイン特化のトレーニングなしでGPT-4が医療の質問に答える能力を向上させる課題に取り組みまし...

コンピュータサイエンス

2050年までに、ロボットはワールドカップの優勝者に勝利するか?

ロボカップの夢は、数世代のロボティストたちにインスピレーションを与えてきました

AI研究

人工知能を使用した3Dモデルのカスタマイズを革新する:MITの研究者が、機能性に影響を与えずに美的な調整を行うためのユーザーフレンドリーなインターフェースを開発しました

3Dプリントとデザインにおいて、オープンソースのオンラインリポジトリから入手した3Dデザインをカスタマイズする能力は、持...