ウィスコンシン大学とバイトダンスの研究者は、PanoHeadを紹介しますこれは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成する、初の3D GANフレームワークです
ウィスコンシン大学とバイトダンスの研究者は、初の3D GANフレームワークであるPanoHeadを紹介しますPanoHeadは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成することができます
コンピュータビジョンとグラフィックスでは、写真のような写実的な肖像画像合成が常に強調されており、仮想アバター、テレプレゼンス、没入型ゲームなど、さまざまな領域で下流アプリケーションが広がっています。現在の生成的対抗ネットワーク(GAN)の最近の進展により、本物の画像と区別できないほどの高品質な画像合成が実現されています。しかし、現代の生成手法では、基礎となる3Dシーンをモデル化するのではなく、2D畳み込みネットワーク上で操作されます。その結果、異なる位置にある頭部画像を合成する際に3Dの一貫性を適切に保証することは不可能です。従来の手法では、広範な3Dスキャンコレクションから学習したパラメトリックなテクスチャ付きメッシュモデルを使用して、さまざまな形状と外観を持つ3Dヘッドを生成します。
ただし、生成された画像はより細かなディテールが必要であり、表現力と知覚品質が低いです。よりリアルな3D認識顔画像を作成するために、異なるiable renderingとimplicit neural representationの登場により、条件付き生成モデルが作成されました。ただし、これらの手法は、しばしばマルチビュー画像または3Dスキャンの監督に依存します。これは入手が困難であり、通常は制御された環境で記録されるため外観分布が制約されます。3Dシーンモデリングと画像合成のためのimplicit neural representationの最近の進展により、3D認識生成モデルの開発が加速されています。
これらのうち、先駆的な3D GANであるEG3Dは、視点に一貫した画像合成の印象的な品質を持ち、野生のシングルビュー画像セットを使用してトレーニングされました。ただし、これらの3D GANメソッドは、ほぼ正面からの視点でしか合成できません。ByteDanceとウィスコンシン大学マディソン校の研究者は、ユニークな3D認識GANであるPanoHeadを提案しています。これは野生の非構造化写真のみを使用してトレーニングされ、360で高品質な完全な3Dヘッド合成を可能にします。テレプレゼンスやデジタルアバターなど、さまざまな没入型インタラクション状況では、彼らのモデルがすべての視点から見える一貫した3Dヘッドを合成できる能力が役立ちます。彼らは、彼らの手法が完全に360度の3Dヘッド合成を実現する最初の3D GANアプローチであると考えています。
- コンピュータビジョンが脳のように機能するとき、それは人々が見るようにもっと見ることができます
- 天候の変化:AI、高速計算がより速く、効率的な予測を提供することを約束します
- プリンストンの研究者たちは、革新的な軽量フレームワーク「InterCode」を導入しましたこれにより、人間のような言語からコード生成のための言語モデルの相互作用が効率化されました
EG3Dなどの3D GANフレームワークを使用した場合、完全な3Dヘッド合成にはいくつかの主要な技術的障害があります。多くの3D GANは前景と背景を区別できず、2.5Dヘッドジオメトリになってしまいます。一般的に壁構造として構成される背景は、3Dで作成されたヘッドと絡み合ってしまいますので、大きなポーズはレンダリングできません。彼らは、2D画像セグメンテーションからの以前の情報を使用して、前景ヘッドの3D空間での分解を同時に学習する前景認識トライディスクリミネータを開発しました。さらに、トライプレーンなどのハイブリッド3Dシーン表現は、360度カメラのポーズに対して重要な投影の不確実性を持っており、効率とコンパクトさにもかかわらず、後頭部に「反転した顔」が表示されます。
彼らは、トライプレーン表現の効果を保持しながら、前面の特徴を後頭部から分離する独自の3Dトライグリッドボリューム表現を提供します。最後に、野生の後頭部の正確なカメラ外部パラメータを取得することは非常に困難です。また、これらと正面写真との画像配置には顕著な顔ランドマークの違いがあります。配置のギャップからは、魅力的でないヘッドジオメトリとノイズのある外観が生じます。そのため、彼らは、すべての視点からの写真を信頼性の高い方法で整列させるユニークな2段階の整列方法を提案しています。この手順により、3D GANの学習曲線が大幅に短縮されます。
彼らは、リアヘッドの画像のアライメントのずれを考慮に入れるために、レンダリングカメラの位置を動的に修正するカメラ自己適応モジュールを提案しています。図1に示すように、彼らのアプローチは、任意の視点からの野外全頭写真に適応する3D GANの能力を大幅に向上させています。その結果、生成される3D GANは、定量的な指標で最先端の技術を上回る高品質な360° RGB画像とジオメトリを生成します。このモデルを使用すると、単眼で撮影された映像から全頭の3Dポートレートを簡単に再構築する方法が示されています。
以下は、彼らの主な貢献の要約です:
・ビューの整合性があり、高品質な360度全頭画像合成が可能な、最初の3D GANフレームワーク。フィールドで撮影された高品質の単眼3D頭部再構成を使用して、彼らの手法を説明しています。
・効果と表現力を妥協した、3D 360度ヘッドシナリオを表現するための独自の三角格子形式。
・2D背景合成と3D前景ヘッドモデリングを分離するトライディスクリミネータ。
・カメラのポストアライメントの問題や画像のずれを適応的に処理する、最先端の二段階の画像アライメント技術。これにより、広範なカメラのポーズで野外で撮影された写真から3D GANをトレーニングすることが可能となります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 北京大学の研究者たちは、ChatLawというオープンソースの法律用の大規模言語モデルを紹介しましたこのモデルには、統合された外部知識ベースが搭載されています
- スタンフォード大学の研究者たちは、「HyenaDNA」という名前の遠距離ゲノム基盤モデルを導入しましたこのモデルは、シングルヌクレオチド解像度で最大1百万トークンのコンテキスト長を持っています
- NLPとエリシットを用いたジェンダー平等に関する研究の探索
- この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています
- スタンフォードの研究者たちは、Parselという人工知能(AI)フレームワークを紹介しましたこのフレームワークは、コードの大規模な言語モデル(LLMs)を使用して、複雑なアルゴリズムの自動実装と検証を可能にします
- 新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します
- Eleuther AI Research Groupが、Classifier-free Guidance(CFG)がLLMsとどのように組み合わされるかを実証しました