ウィスコンシン大学とバイトダンスの研究者は、PanoHeadを紹介しますこれは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成する、初の3D GANフレームワークです

ウィスコンシン大学とバイトダンスの研究者は、初の3D GANフレームワークであるPanoHeadを紹介しますPanoHeadは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成することができます

コンピュータビジョンとグラフィックスでは、写真のような写実的な肖像画像合成が常に強調されており、仮想アバター、テレプレゼンス、没入型ゲームなど、さまざまな領域で下流アプリケーションが広がっています。現在の生成的対抗ネットワーク(GAN)の最近の進展により、本物の画像と区別できないほどの高品質な画像合成が実現されています。しかし、現代の生成手法では、基礎となる3Dシーンをモデル化するのではなく、2D畳み込みネットワーク上で操作されます。その結果、異なる位置にある頭部画像を合成する際に3Dの一貫性を適切に保証することは不可能です。従来の手法では、広範な3Dスキャンコレクションから学習したパラメトリックなテクスチャ付きメッシュモデルを使用して、さまざまな形状と外観を持つ3Dヘッドを生成します。

ただし、生成された画像はより細かなディテールが必要であり、表現力と知覚品質が低いです。よりリアルな3D認識顔画像を作成するために、異なるiable renderingとimplicit neural representationの登場により、条件付き生成モデルが作成されました。ただし、これらの手法は、しばしばマルチビュー画像または3Dスキャンの監督に依存します。これは入手が困難であり、通常は制御された環境で記録されるため外観分布が制約されます。3Dシーンモデリングと画像合成のためのimplicit neural representationの最近の進展により、3D認識生成モデルの開発が加速されています。

図1は、PanoHeadが高品質なジオメトリと360ビューに一貫した写真のような完全なヘッド画像合成を可能にする方法を示しています。

これらのうち、先駆的な3D GANであるEG3Dは、視点に一貫した画像合成の印象的な品質を持ち、野生のシングルビュー画像セットを使用してトレーニングされました。ただし、これらの3D GANメソッドは、ほぼ正面からの視点でしか合成できません。ByteDanceとウィスコンシン大学マディソン校の研究者は、ユニークな3D認識GANであるPanoHeadを提案しています。これは野生の非構造化写真のみを使用してトレーニングされ、360で高品質な完全な3Dヘッド合成を可能にします。テレプレゼンスやデジタルアバターなど、さまざまな没入型インタラクション状況では、彼らのモデルがすべての視点から見える一貫した3Dヘッドを合成できる能力が役立ちます。彼らは、彼らの手法が完全に360度の3Dヘッド合成を実現する最初の3D GANアプローチであると考えています。

EG3Dなどの3D GANフレームワークを使用した場合、完全な3Dヘッド合成にはいくつかの主要な技術的障害があります。多くの3D GANは前景と背景を区別できず、2.5Dヘッドジオメトリになってしまいます。一般的に壁構造として構成される背景は、3Dで作成されたヘッドと絡み合ってしまいますので、大きなポーズはレンダリングできません。彼らは、2D画像セグメンテーションからの以前の情報を使用して、前景ヘッドの3D空間での分解を同時に学習する前景認識トライディスクリミネータを開発しました。さらに、トライプレーンなどのハイブリッド3Dシーン表現は、360度カメラのポーズに対して重要な投影の不確実性を持っており、効率とコンパクトさにもかかわらず、後頭部に「反転した顔」が表示されます。

彼らは、トライプレーン表現の効果を保持しながら、前面の特徴を後頭部から分離する独自の3Dトライグリッドボリューム表現を提供します。最後に、野生の後頭部の正確なカメラ外部パラメータを取得することは非常に困難です。また、これらと正面写真との画像配置には顕著な顔ランドマークの違いがあります。配置のギャップからは、魅力的でないヘッドジオメトリとノイズのある外観が生じます。そのため、彼らは、すべての視点からの写真を信頼性の高い方法で整列させるユニークな2段階の整列方法を提案しています。この手順により、3D GANの学習曲線が大幅に短縮されます。

彼らは、リアヘッドの画像のアライメントのずれを考慮に入れるために、レンダリングカメラの位置を動的に修正するカメラ自己適応モジュールを提案しています。図1に示すように、彼らのアプローチは、任意の視点からの野外全頭写真に適応する3D GANの能力を大幅に向上させています。その結果、生成される3D GANは、定量的な指標で最先端の技術を上回る高品質な360° RGB画像とジオメトリを生成します。このモデルを使用すると、単眼で撮影された映像から全頭の3Dポートレートを簡単に再構築する方法が示されています。

以下は、彼らの主な貢献の要約です:

・ビューの整合性があり、高品質な360度全頭画像合成が可能な、最初の3D GANフレームワーク。フィールドで撮影された高品質の単眼3D頭部再構成を使用して、彼らの手法を説明しています。

・効果と表現力を妥協した、3D 360度ヘッドシナリオを表現するための独自の三角格子形式。

・2D背景合成と3D前景ヘッドモデリングを分離するトライディスクリミネータ。

・カメラのポストアライメントの問題や画像のずれを適応的に処理する、最先端の二段階の画像アライメント技術。これにより、広範なカメラのポーズで野外で撮影された写真から3D GANをトレーニングすることが可能となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています

ここ数年、大型言語モデル(LLM)(GPT4など)の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスク...

データサイエンス

「LP-MusicCapsに会ってください:データの乏しさ問題に対処するための大規模言語モデルを使用したタグから疑似キャプション生成アプローチによる自動音楽キャプション作成」

音楽のキャプション生成は、与えられた音楽トラックの自然言語による説明を生成することによる音楽情報の検索です。生成され...

AI研究

『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました

人間の行動認識の最近の進展は、人間とロボットの相互作用(HRI)において驚くべきブレークスルーを実現しました。この技術によ...

AI研究

プリンストン大学の研究者が、自然界の写実的な3Dシーンの手続き生成器であるInfinigenを紹介しました

プリンストン大学の研究チームは、「プロシージャルジェネレーションを使用した無限の写実的な世界」という最近の論文で、画...

AIテクノロジー

「ToolJetに会いましょう:最小限のエンジニアリング作業で内部ツールを構築・展開するためのオープンソースのローコードフレームワーク」

ソフトウェア開発の世界では、組織が過剰なエンジニアリング努力を要求せずに迅速に内部ツールを構築および展開する必要があ...

データサイエンス

将来のPythonバージョン(3.12など)に一般のユーザーに先駆けてアクセスする方法

Python 3.12などの将来のバージョンを群衆より先にインストールしてテストする方法についてのチュートリアルで、新しい機能を...