アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」
Appleとブリティッシュコロンビア大学のAI研究者による「FaceLit:ニューラル3D再点灯可能な顔のためのAIフレームワーク」の提案
近年、2D画像から3D生成モデルを獲得するタスクに対する関心が高まっています。Neural Radiance Fields(NeRF)の登場により、3Dモデルから生成される画像の品質が大幅に向上し、2Dモデルによって達成される写真のようなリアリズムと競合しています。特定のアプローチは、第3次元での一貫性を確保するために3D表現にのみ焦点を当てていますが、これはしばしばリアリズムの低下を伴います。しかしながら、より最近の研究では、ハイブリッドなアプローチがこの制限を克服し、強化されたリアリズムをもたらすことが示されています。しかし、これらのモデルの顕著な欠点は、ジオメトリ、外観、照明などのシーン要素が絡み合っており、ユーザーによる制御が困難であることです。
この複雑さを解明するためにさまざまなアプローチが提案されています。しかし、効果的な実装のためには、対象シーンの複数の視点画像の収集が必要です。残念ながら、現実の条件下で撮影された画像を扱う際には困難が伴います。一部の取り組みでは、異なるシーンからの画像を含めることでこの条件を緩和していますが、同じオブジェクトの複数の視点が必要となる点は変わりません。さらに、これらの方法は生成能力に欠け、各異なるオブジェクトごとに個別のトレーニングが必要であり、新しいオブジェクトを作成することができません。生成方法を考慮する際には、ジオメトリと照明の絡み合った性質が依然として難しい問題です。
提案されたフレームワークであるFaceLitは、画像から顔の3D表現を獲得する方法を紹介しています。
- Salesforceの研究者は、XGen-Image-1を導入しました:複数の事前学習済みコンポーネントを再利用するために訓練されたテキストから画像への潜在的な拡散モデル
- UCサンタクルーズの研究者たちは、概念や価値観間の暗黙的なステレオタイプと、画像内のそれらを定量化する画像対テキスト関連性テストツールを提案しています
- 「これまでに見たことのない新しいコンセプトをどのように生成できるのか?テルアビブ大学の研究者たちは、ConceptLabという名前の新しいアイデア生成手法を提案していますこれは拡散事前制約を用いた創造的な生成手法です」
アーキテクチャの概要は以下の図に示されています。
この手法の核心は、物理的な照明モデルを確立された物理モデルに従うように強制するレンダリングパイプラインの構築にあります。また、フレームワークは既存の照明と姿勢推定ツールを活用しています。
物理ベースの照明モデルは、最近開発されたNeural Volume RenderingパイプラインであるEG3Dに統合されており、2D画像からボリュームレンダリングのための深い特徴を生成するためにトライプレーンのコンポーネントを使用しています。この統合には球面調和関数が利用されています。その後のトレーニングは、リアリズムに焦点を当て、フレームワークの物理的な原則への固有の遵守を利用して写実的な画像を生成します。この物理的な原則との整合性は、解体された3D生成モデルの獲得を自然に容易にします。
この方法を可能にする鍵となる要素は、物理ベースのレンダリング原則をニューラルボリュームレンダリングに統合することです。先に述べたように、この戦略は、球面調和関数を活用して既存の利用可能な照明推定器とシームレスに統合するために設計されています。このフレームワークでは、シーンの拡散反射率、物質の鏡面反射率、法線ベクトルを表す球面調和関数の係数が表面に関連付けられます。これらの係数は、ニューラルネットワークを介して生成されます。しかしながら、このようなシンプルな設定でも、照明をレンダリングプロセスから分離する効果的な手法です。
提案された手法は、FFHQ、CelebA-HQ、MetFacesの3つのデータセットで実装およびテストされました。著者によれば、これにより最先端のFIDスコアが得られ、この手法が3D意識のある生成モデルの最先端に位置しているとされています。以下に、この手法によって生成された一部の結果が報告されています。
これはFaceLitの概要であり、画像から顔の非分離な3D表現を獲得するための新しいAIフレームワークです。興味がある場合は、以下に引用されているリンクを参照して詳細を学ぶことができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- メタAIの研究者たちは、大規模な言語モデルの生成物を批評するための新しいAIモデルを紹介しました
- ペンシルベニア大学の研究者たちは、腎臓のマッチングを改善し、移植片の失敗リスクを減らすための機械学習戦略の開発を行っています
- バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです
- 中国からの新しいAI研究が、RecycleGPTを紹介しましたRecycleGPTは、完全なモデルを複数のステップで実行せずに、事前生成されたモデルの状態をリサイクルすることで、高速なデコーディングスピード(1.4倍)を持つ生成言語モデルです
- 研究者たちは、肩越しに画面をのぞき見する人々から身を守るためのスクリーン保護システムを開発しました
- このAI研究は、多モーダル大規模言語モデル(LLM)の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています
- 「AIがPowerPointと出会う」