テキストによる画像および3Dシーン編集の高精度化:『Watch Your Steps』に出会う
高精度な画像および3Dシーン編集のためのテキスト:『Watch Your Steps』
ニューラル放射場(NeRF)は、正確で直感的な視覚化を作成する能力により、大いに人気が高まっています。これにより、イメージを変更するためにNeRFを変更するというアイデアが生まれました。また、ノイズ除去拡散モデルは、テキストの説明から非常に良いイメージを生成でき、その効果的さから画像編集のために人気があります。拡散ベースの画像編集技術の将来性にもかかわらず、変更が必要な領域を特定するための自動化手法は明らかに不足しています。現在使用されている手法は、ユーザーが提供したマスクに依存したり、ノイズのある入力で見つかるグローバル情報を出発点としたり、入力データに依存してノイズ除去プロセスが行われる方法に依存しています。
しかし、これらのアプローチは通常、過度に編集する傾向があります。NeRF編集のためのIN2Nアプリケーションでも、シーンの過剰な編集の問題に直面しています。IP2Pと同様に、DiffEditはキャプションによって導かれるノイズ予測を使用して編集ゾーンを特定しますが、この方法は遅くて効率が低いです。研究者チームは、特定のテキスト指示に従って変更が必要な画像内の正確な領域を特定およびローカライズするためのユニークな手法を発表しました。これはWatch Your Stepsとして知られ、この手法はテキスト指示によるローカルイメージおよびシーンの編集をサポートします。
チームは、InstructPix2Pix(IP2P)の機能を利用して、IP2Pの指示ありと指示なしの予測の違いを明らかにしました。この違いは関連マップと呼ばれています。関連マップは基本的には道路地図の役割を果たし、特定のピクセルを変更して所望の変更を達成するための重要性を示します。これにより、変更を行う際には必要なピクセルのみを変更し、不要なピクセルは変更しないようにするためのガイドとして機能します。
- メタがコードラマをリリース:コーディングのための最新のAIツール
- 「NTU SingaporeのこのAI論文は、モーション表現を用いたビデオセグメンテーションのための大規模ベンチマーク、MeVISを紹介しています」
- 『周期的な時間特徴のエンコード方法』
チームは、関連マップが基本的な画像編集に限らず、3Dシーンの文脈でのテキストによる指示による変更の精度を向上させるためにも役立つことを共有しています。これを行うために、異なるトレーニングビューに接続された関連マップを利用して、関連フィールドがトレーニングされました。この関連フィールドによって、意図した変更を達成するために変更すべき3D領域が効果的に定義され、このため、既定の関連フィールドから関連マップをレンダリングして、トレーニングビューを反復的に更新するためのガイドとして機能します。
評価の結果、この手法はニューラル放射場(NeRF)の編集作業および画像編集において類を見ないパフォーマンスを達成したことがわかりました。これにより、画像とシーンの操作によって生じる困難を克服するためのこの手法の価値と優れた性能が示されました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles