「KAISTの研究者がFaceCLIPNeRFを紹介:変形可能なNeRFを使用した3D顔のテキスト駆動型操作パイプライン」

KAIST researchers present FaceCLIPNeRF a text-driven pipeline for 3D face manipulation using deformable NeRF.

3Dデジタル人間コンテンツ改善の重要な要素は、簡単に3D顔表現を操作できる能力です。Neural Radiance Field(NeRF)は、3Dシーンの再構築において重要な進展を遂げていますが、その操作技術の多くは剛体ジオメトリや色の操作に焦点を当てており、表情の微細な制御を必要とする作業において改善が必要です。最近の研究では、領域制御された顔編集手法が提案されましたが、この手法では、選択したトレーニングフレームから顔の異なる部分のユーザーアノテーションマスクを収集する手間のかかる手順が必要であり、さらに人間の属性制御が必要です。

顔特異的な暗黙の表現技術は、可変性の高い顔モデルのパラメータを事前に使用して観測された顔の表情を高い忠実度でエンコードします。しかし、その手動操作には、顔の表情の範囲を網羅した大規模なトレーニングセットが必要であり、約6000フレームをカバーします。これにより、データ収集と操作のプロセスが困難になります。その代わりに、KAISTとScatter Labの研究者は、いくつかの異なるタイプの顔変形インスタンスから成る約300のトレーニングフレームの動的なポートレートビデオ上でトレーニングする方法を開発しました。これにより、図1に示すように、テキストによる変更が可能になります。

図1

彼らの手法は、HyperNeRFを使用して観測された変形をカノニカル空間から学習し分離し、顔の変形を制御します。特に、共通の潜在コード条件付きの暗黙のシーンネットワークとフレームごとの変形潜在コードは、トレーニングフレーム全体で教えられます。彼らの基本的な発見は、様々な空間変数の潜在コードを使用してシーンの変形を表現し、操作タスクに利用することです。この発見は、HyperNeRFの定式化を単純に適用することの欠点から生じます。すなわち、望ましい顔の歪みをエンコードする単一の潜在コードを探すことです。

たとえば、単一の潜在コードでは、多くの場合に見られるローカルな変形の混合を必要とする表情を伝えることはできません。彼らの研究では、この問題を「連結ローカル属性の問題」として特定し、空間的に変動する潜在コードを提供することで対処しています。これを行うために、彼らはまず、すべての観測された変形をアンカーコードのコレクションにまとめ、それらを組み合わせて数多くの位置条件付きの潜在コードを生成するためにMLPに教えます。そして、生成された潜在コードの画像をCLIP埋め込み空間の目標テキストに近づけることにより、潜在コードの反映性を実現します。結論として、彼らの研究は以下の貢献をしています。

• 空間的に変動する潜在コードを使用してシーンを表現する操作ネットワークの設計

• NeRFで再構築された顔のテキストによる操作パイプラインの提案

• 彼らの知る限り、NeRFで再構築された顔に関するテキストを操作する最初の人物。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

パーソナライズされたAIの簡単な作成方法:GPTの適応に向けたノーコードガイド

OpenAIは、カスタムChatGPTを作成するためのコード不要のアプローチで個人のAIカスタマイズを革新しています

AI研究

ペンシルバニア大学の研究者が、軽量で柔軟、モデルに依存しないオープンソースのAIフレームワーク「Kani」を導入し、言語モデルアプリケーションの構築を行います

大規模言語モデルの応用は人気が高まっています。その驚異的な能力により、ますます洗練されてきています。ツールの使用追跡...

機械学習

このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための手法

テキストからビデオへの拡散モデルは、最近大きな進展を遂げています。テキストの説明を提供するだけで、ユーザーは現実的ま...

機械学習

「機械学習を使ったイタリアンファンタジーフットボールで勝利した方法」

数年前からプログラミングとコンピュータサイエンスに興味を持つ機械工学のエンジニアとして、私は機械学習と人工知能の世界...

機械学習

スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介しますこのコーパスは、英語と中国語のテキストから引用されています

バイリンガルLLMは、言語の多様性が共通の課題となっている相互につながった世界で、ますます重要になっています。彼らは言語...