「KAISTの研究者がFaceCLIPNeRFを紹介:変形可能なNeRFを使用した3D顔のテキスト駆動型操作パイプライン」

KAIST researchers present FaceCLIPNeRF a text-driven pipeline for 3D face manipulation using deformable NeRF.

3Dデジタル人間コンテンツ改善の重要な要素は、簡単に3D顔表現を操作できる能力です。Neural Radiance Field(NeRF)は、3Dシーンの再構築において重要な進展を遂げていますが、その操作技術の多くは剛体ジオメトリや色の操作に焦点を当てており、表情の微細な制御を必要とする作業において改善が必要です。最近の研究では、領域制御された顔編集手法が提案されましたが、この手法では、選択したトレーニングフレームから顔の異なる部分のユーザーアノテーションマスクを収集する手間のかかる手順が必要であり、さらに人間の属性制御が必要です。

顔特異的な暗黙の表現技術は、可変性の高い顔モデルのパラメータを事前に使用して観測された顔の表情を高い忠実度でエンコードします。しかし、その手動操作には、顔の表情の範囲を網羅した大規模なトレーニングセットが必要であり、約6000フレームをカバーします。これにより、データ収集と操作のプロセスが困難になります。その代わりに、KAISTとScatter Labの研究者は、いくつかの異なるタイプの顔変形インスタンスから成る約300のトレーニングフレームの動的なポートレートビデオ上でトレーニングする方法を開発しました。これにより、図1に示すように、テキストによる変更が可能になります。

図1

彼らの手法は、HyperNeRFを使用して観測された変形をカノニカル空間から学習し分離し、顔の変形を制御します。特に、共通の潜在コード条件付きの暗黙のシーンネットワークとフレームごとの変形潜在コードは、トレーニングフレーム全体で教えられます。彼らの基本的な発見は、様々な空間変数の潜在コードを使用してシーンの変形を表現し、操作タスクに利用することです。この発見は、HyperNeRFの定式化を単純に適用することの欠点から生じます。すなわち、望ましい顔の歪みをエンコードする単一の潜在コードを探すことです。

たとえば、単一の潜在コードでは、多くの場合に見られるローカルな変形の混合を必要とする表情を伝えることはできません。彼らの研究では、この問題を「連結ローカル属性の問題」として特定し、空間的に変動する潜在コードを提供することで対処しています。これを行うために、彼らはまず、すべての観測された変形をアンカーコードのコレクションにまとめ、それらを組み合わせて数多くの位置条件付きの潜在コードを生成するためにMLPに教えます。そして、生成された潜在コードの画像をCLIP埋め込み空間の目標テキストに近づけることにより、潜在コードの反映性を実現します。結論として、彼らの研究は以下の貢献をしています。

• 空間的に変動する潜在コードを使用してシーンを表現する操作ネットワークの設計

• NeRFで再構築された顔のテキストによる操作パイプラインの提案

• 彼らの知る限り、NeRFで再構築された顔に関するテキストを操作する最初の人物。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「医療分野における生成型AI」

はじめに 生成型人工知能は、ここ数年で急速に注目を集めています。医療と生成型人工知能の間に強い関係性が生まれていること...

AIニュース

「HITL-TAMPを紹介します:自動計画と人間の制御のハイブリッド戦略を通じて、ロボットに複雑な操作スキルを教えるための新しいAIアプローチ」

ロボットに複雑な操作スキルを教えるための人間のデモンストレーションの観察は、有望な結果を示しています。操作のデモを提...

機械学習

ミストラルAIは、MoE 8x7Bリリースによる言語モデルの画期的な進歩を発表します

パリに拠点を置くスタートアップMistral AIは、MoE 8x7Bという言語モデルを発表しました。Mistral LLMは、各々が70億のパラメ...

コンピュータサイエンス

「アメリカでの顔認識技術は、最大の試練のひとつに直面する」

「マサチューセッツ州の警察の使用を制限する法案は、アメリカでの技術の規制の基準を設定する可能性があります」

機械学習

クラウドウォッチの高度なメトリクス、ダッシュボード、アラートを使用してAWSのコストを最適化する

この記事では、Amazon CloudWatchを活用した高度なダッシュボードを使用して、AWSのコストを効率的に管理および分析する方法...

機械学習

機械学習エンジニアのためのLLMOps入門ガイド

イントロダクション OpenAIのChatGPTのリリースは、大規模言語モデル(LLM)への関心を高め、人工知能について誰もが話題にし...