ウィスコンシン大学とバイトダンスの研究者は、PanoHeadを紹介しますこれは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成する、初の3D GANフレームワークです

ウィスコンシン大学とバイトダンスの研究者は、初の3D GANフレームワークであるPanoHeadを紹介しますPanoHeadは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成することができます

コンピュータビジョンとグラフィックスでは、写真のような写実的な肖像画像合成が常に強調されており、仮想アバター、テレプレゼンス、没入型ゲームなど、さまざまな領域で下流アプリケーションが広がっています。現在の生成的対抗ネットワーク(GAN)の最近の進展により、本物の画像と区別できないほどの高品質な画像合成が実現されています。しかし、現代の生成手法では、基礎となる3Dシーンをモデル化するのではなく、2D畳み込みネットワーク上で操作されます。その結果、異なる位置にある頭部画像を合成する際に3Dの一貫性を適切に保証することは不可能です。従来の手法では、広範な3Dスキャンコレクションから学習したパラメトリックなテクスチャ付きメッシュモデルを使用して、さまざまな形状と外観を持つ3Dヘッドを生成します。

ただし、生成された画像はより細かなディテールが必要であり、表現力と知覚品質が低いです。よりリアルな3D認識顔画像を作成するために、異なるiable renderingとimplicit neural representationの登場により、条件付き生成モデルが作成されました。ただし、これらの手法は、しばしばマルチビュー画像または3Dスキャンの監督に依存します。これは入手が困難であり、通常は制御された環境で記録されるため外観分布が制約されます。3Dシーンモデリングと画像合成のためのimplicit neural representationの最近の進展により、3D認識生成モデルの開発が加速されています。

図1は、PanoHeadが高品質なジオメトリと360ビューに一貫した写真のような完全なヘッド画像合成を可能にする方法を示しています。

これらのうち、先駆的な3D GANであるEG3Dは、視点に一貫した画像合成の印象的な品質を持ち、野生のシングルビュー画像セットを使用してトレーニングされました。ただし、これらの3D GANメソッドは、ほぼ正面からの視点でしか合成できません。ByteDanceとウィスコンシン大学マディソン校の研究者は、ユニークな3D認識GANであるPanoHeadを提案しています。これは野生の非構造化写真のみを使用してトレーニングされ、360で高品質な完全な3Dヘッド合成を可能にします。テレプレゼンスやデジタルアバターなど、さまざまな没入型インタラクション状況では、彼らのモデルがすべての視点から見える一貫した3Dヘッドを合成できる能力が役立ちます。彼らは、彼らの手法が完全に360度の3Dヘッド合成を実現する最初の3D GANアプローチであると考えています。

EG3Dなどの3D GANフレームワークを使用した場合、完全な3Dヘッド合成にはいくつかの主要な技術的障害があります。多くの3D GANは前景と背景を区別できず、2.5Dヘッドジオメトリになってしまいます。一般的に壁構造として構成される背景は、3Dで作成されたヘッドと絡み合ってしまいますので、大きなポーズはレンダリングできません。彼らは、2D画像セグメンテーションからの以前の情報を使用して、前景ヘッドの3D空間での分解を同時に学習する前景認識トライディスクリミネータを開発しました。さらに、トライプレーンなどのハイブリッド3Dシーン表現は、360度カメラのポーズに対して重要な投影の不確実性を持っており、効率とコンパクトさにもかかわらず、後頭部に「反転した顔」が表示されます。

彼らは、トライプレーン表現の効果を保持しながら、前面の特徴を後頭部から分離する独自の3Dトライグリッドボリューム表現を提供します。最後に、野生の後頭部の正確なカメラ外部パラメータを取得することは非常に困難です。また、これらと正面写真との画像配置には顕著な顔ランドマークの違いがあります。配置のギャップからは、魅力的でないヘッドジオメトリとノイズのある外観が生じます。そのため、彼らは、すべての視点からの写真を信頼性の高い方法で整列させるユニークな2段階の整列方法を提案しています。この手順により、3D GANの学習曲線が大幅に短縮されます。

彼らは、リアヘッドの画像のアライメントのずれを考慮に入れるために、レンダリングカメラの位置を動的に修正するカメラ自己適応モジュールを提案しています。図1に示すように、彼らのアプローチは、任意の視点からの野外全頭写真に適応する3D GANの能力を大幅に向上させています。その結果、生成される3D GANは、定量的な指標で最先端の技術を上回る高品質な360° RGB画像とジオメトリを生成します。このモデルを使用すると、単眼で撮影された映像から全頭の3Dポートレートを簡単に再構築する方法が示されています。

以下は、彼らの主な貢献の要約です:

・ビューの整合性があり、高品質な360度全頭画像合成が可能な、最初の3D GANフレームワーク。フィールドで撮影された高品質の単眼3D頭部再構成を使用して、彼らの手法を説明しています。

・効果と表現力を妥協した、3D 360度ヘッドシナリオを表現するための独自の三角格子形式。

・2D背景合成と3D前景ヘッドモデリングを分離するトライディスクリミネータ。

・カメラのポストアライメントの問題や画像のずれを適応的に処理する、最先端の二段階の画像アライメント技術。これにより、広範なカメラのポーズで野外で撮影された写真から3D GANをトレーニングすることが可能となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

TinyML アプリケーション、制限、およびIoT&エッジデバイスでの使用

過去数年間、人工知能(AI)と機械学習(ML)は、産業だけでなく学界でも人気と応用が急速に広まってきましたしかし、現在のM...

データサイエンス

「生成AIのためのモダンなMLOpsプラットフォーム」

ジェネレーティブAI用のモダンなMLOpsプラットフォームは、機械学習オペレーションの実践をジェネレーティブモデルの特徴とシ...

AIニュース

自動化された進化が厳しい課題に取り組む

強化学習は、ラベルのないデータを好みの集合にグループ化することを目指し、人間による評価関数から得られる累積報酬を最大...

機械学習

一貫性のあるAIビデオエディターが登場しました:TokenFlowは、一貫性のあるビデオ編集のために拡散特徴を使用するAIモデルです

拡散モデルは、この時点でお馴染みのものです。過去の1年間、AIの領域で鍵となるトピックでした。これらのモデルは、画像生成...

機械学習

「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュ...

データサイエンス

「ETLとは何ですか?トップのETLツール」

抽出(Extract)、変換(Transform)、ロード(Load)は、ETLと呼ばれます。 ETLは、データを多数のソースから収集し、標準化...