テキストによる画像および3Dシーン編集の高精度化:『Watch Your Steps』に出会う

高精度な画像および3Dシーン編集のためのテキスト:『Watch Your Steps』

ニューラル放射場(NeRF)は、正確で直感的な視覚化を作成する能力により、大いに人気が高まっています。これにより、イメージを変更するためにNeRFを変更するというアイデアが生まれました。また、ノイズ除去拡散モデルは、テキストの説明から非常に良いイメージを生成でき、その効果的さから画像編集のために人気があります。拡散ベースの画像編集技術の将来性にもかかわらず、変更が必要な領域を特定するための自動化手法は明らかに不足しています。現在使用されている手法は、ユーザーが提供したマスクに依存したり、ノイズのある入力で見つかるグローバル情報を出発点としたり、入力データに依存してノイズ除去プロセスが行われる方法に依存しています。

しかし、これらのアプローチは通常、過度に編集する傾向があります。NeRF編集のためのIN2Nアプリケーションでも、シーンの過剰な編集の問題に直面しています。IP2Pと同様に、DiffEditはキャプションによって導かれるノイズ予測を使用して編集ゾーンを特定しますが、この方法は遅くて効率が低いです。研究者チームは、特定のテキスト指示に従って変更が必要な画像内の正確な領域を特定およびローカライズするためのユニークな手法を発表しました。これはWatch Your Stepsとして知られ、この手法はテキスト指示によるローカルイメージおよびシーンの編集をサポートします。

チームは、InstructPix2Pix(IP2P)の機能を利用して、IP2Pの指示ありと指示なしの予測の違いを明らかにしました。この違いは関連マップと呼ばれています。関連マップは基本的には道路地図の役割を果たし、特定のピクセルを変更して所望の変更を達成するための重要性を示します。これにより、変更を行う際には必要なピクセルのみを変更し、不要なピクセルは変更しないようにするためのガイドとして機能します。

チームは、関連マップが基本的な画像編集に限らず、3Dシーンの文脈でのテキストによる指示による変更の精度を向上させるためにも役立つことを共有しています。これを行うために、異なるトレーニングビューに接続された関連マップを利用して、関連フィールドがトレーニングされました。この関連フィールドによって、意図した変更を達成するために変更すべき3D領域が効果的に定義され、このため、既定の関連フィールドから関連マップをレンダリングして、トレーニングビューを反復的に更新するためのガイドとして機能します。

評価の結果、この手法はニューラル放射場(NeRF)の編集作業および画像編集において類を見ないパフォーマンスを達成したことがわかりました。これにより、画像とシーンの操作によって生じる困難を克服するためのこの手法の価値と優れた性能が示されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UC San Diegoの研究者たちは、EUGENeという使いやすいディープラーニングゲノミクスソフトウェアを紹介します

ディープラーニングは生活のあらゆる分野で使用されています。あらゆる領域でその有用性があります。バイオメディカル研究に...

AI研究

「SimCLRの最大の問題を修正する〜BYOL論文の解説」

SimCLRは対比学習のアイデアを成功裏に実装し、当時新たな最先端の性能を達成しました!それにもかかわらず、このアイデアに...

データサイエンス

楽しみと利益のために2023年にシンプルなAIアプリケーションを作る

「最近、ソフトウェア市場のこのセグメントがどれほどの関心を集めているかを考えると、独自のAIパワードアプリのプロジェク...

AIニュース

ChatGPTを使用してAIエージェントを作成する

新しい「カスタムインストラクション」機能を使うことで、ChatGPTをAIエージェントに変えることができます

AIニュース

大ニュース:Google、ジェミニAIモデルのローンチを延期

予想外の展開となり、Googleは最先端のAIモデル「Gemini」の高い期待を集めるローンチを来年の1月まで延期することを選びまし...

機械学習

「拡散を支配するための1つの拡散:マルチモーダル画像合成のための事前学習済み拡散モデルの調節」

画像生成AIモデルは、ここ数ヶ月でこの領域を席巻しています。おそらく、midjourney、DALL-E、ControlNet、またはStable dDif...