「KAISTの研究者がFaceCLIPNeRFを紹介：変形可能なNeRFを使用した3D顔のテキスト駆動型操作パイプライン」

KAIST researchers present FaceCLIPNeRF a text-driven pipeline for 3D face manipulation using deformable NeRF.

3Dデジタル人間コンテンツ改善の重要な要素は、簡単に3D顔表現を操作できる能力です。Neural Radiance Field（NeRF）は、3Dシーンの再構築において重要な進展を遂げていますが、その操作技術の多くは剛体ジオメトリや色の操作に焦点を当てており、表情の微細な制御を必要とする作業において改善が必要です。最近の研究では、領域制御された顔編集手法が提案されましたが、この手法では、選択したトレーニングフレームから顔の異なる部分のユーザーアノテーションマスクを収集する手間のかかる手順が必要であり、さらに人間の属性制御が必要です。

顔特異的な暗黙の表現技術は、可変性の高い顔モデルのパラメータを事前に使用して観測された顔の表情を高い忠実度でエンコードします。しかし、その手動操作には、顔の表情の範囲を網羅した大規模なトレーニングセットが必要であり、約6000フレームをカバーします。これにより、データ収集と操作のプロセスが困難になります。その代わりに、KAISTとScatter Labの研究者は、いくつかの異なるタイプの顔変形インスタンスから成る約300のトレーニングフレームの動的なポートレートビデオ上でトレーニングする方法を開発しました。これにより、図1に示すように、テキストによる変更が可能になります。

彼らの手法は、HyperNeRFを使用して観測された変形をカノニカル空間から学習し分離し、顔の変形を制御します。特に、共通の潜在コード条件付きの暗黙のシーンネットワークとフレームごとの変形潜在コードは、トレーニングフレーム全体で教えられます。彼らの基本的な発見は、様々な空間変数の潜在コードを使用してシーンの変形を表現し、操作タスクに利用することです。この発見は、HyperNeRFの定式化を単純に適用することの欠点から生じます。すなわち、望ましい顔の歪みをエンコードする単一の潜在コードを探すことです。

たとえば、単一の潜在コードでは、多くの場合に見られるローカルな変形の混合を必要とする表情を伝えることはできません。彼らの研究では、この問題を「連結ローカル属性の問題」として特定し、空間的に変動する潜在コードを提供することで対処しています。これを行うために、彼らはまず、すべての観測された変形をアンカーコードのコレクションにまとめ、それらを組み合わせて数多くの位置条件付きの潜在コードを生成するためにMLPに教えます。そして、生成された潜在コードの画像をCLIP埋め込み空間の目標テキストに近づけることにより、潜在コードの反映性を実現します。結論として、彼らの研究は以下の貢献をしています。

• 空間的に変動する潜在コードを使用してシーンを表現する操作ネットワークの設計

• NeRFで再構築された顔のテキストによる操作パイプラインの提案

• 彼らの知る限り、NeRFで再構築された顔に関するテキストを操作する最初の人物。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「KAISTの研究者がFaceCLIPNeRFを紹介：変形可能なNeRFを使用した3D顔のテキスト駆動型操作パイプライン」

Was this article helpful?

話すロボット：新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します

「Pandasのastype()とto_datetime()の間の3つの実践的な違い」

AI研究

「KAISTの研究者がFaceCLIPNeRFを紹介：変形可能なNeRFを使用した3D顔のテキスト駆動型操作パイプライン」

2023年のマーケティングにおけるChatGPTの10のユースケース

「現実世界でのPythonのトップ10の使用例」

Fast.AIディープラーニングコースからの7つの教訓

「Text2Cinemagraphによるダイナミックな画像の力を探索：テキストプロンプトからシネマグラフを生成するための革新的なAIツール」

「ChatGPTは人間の創造性テストでトップ1%のスコアを獲得」