テキストによる画像および3Dシーン編集の高精度化:『Watch Your Steps』に出会う

高精度な画像および3Dシーン編集のためのテキスト:『Watch Your Steps』

ニューラル放射場(NeRF)は、正確で直感的な視覚化を作成する能力により、大いに人気が高まっています。これにより、イメージを変更するためにNeRFを変更するというアイデアが生まれました。また、ノイズ除去拡散モデルは、テキストの説明から非常に良いイメージを生成でき、その効果的さから画像編集のために人気があります。拡散ベースの画像編集技術の将来性にもかかわらず、変更が必要な領域を特定するための自動化手法は明らかに不足しています。現在使用されている手法は、ユーザーが提供したマスクに依存したり、ノイズのある入力で見つかるグローバル情報を出発点としたり、入力データに依存してノイズ除去プロセスが行われる方法に依存しています。

しかし、これらのアプローチは通常、過度に編集する傾向があります。NeRF編集のためのIN2Nアプリケーションでも、シーンの過剰な編集の問題に直面しています。IP2Pと同様に、DiffEditはキャプションによって導かれるノイズ予測を使用して編集ゾーンを特定しますが、この方法は遅くて効率が低いです。研究者チームは、特定のテキスト指示に従って変更が必要な画像内の正確な領域を特定およびローカライズするためのユニークな手法を発表しました。これはWatch Your Stepsとして知られ、この手法はテキスト指示によるローカルイメージおよびシーンの編集をサポートします。

チームは、InstructPix2Pix(IP2P)の機能を利用して、IP2Pの指示ありと指示なしの予測の違いを明らかにしました。この違いは関連マップと呼ばれています。関連マップは基本的には道路地図の役割を果たし、特定のピクセルを変更して所望の変更を達成するための重要性を示します。これにより、変更を行う際には必要なピクセルのみを変更し、不要なピクセルは変更しないようにするためのガイドとして機能します。

チームは、関連マップが基本的な画像編集に限らず、3Dシーンの文脈でのテキストによる指示による変更の精度を向上させるためにも役立つことを共有しています。これを行うために、異なるトレーニングビューに接続された関連マップを利用して、関連フィールドがトレーニングされました。この関連フィールドによって、意図した変更を達成するために変更すべき3D領域が効果的に定義され、このため、既定の関連フィールドから関連マップをレンダリングして、トレーニングビューを反復的に更新するためのガイドとして機能します。

評価の結果、この手法はニューラル放射場(NeRF)の編集作業および画像編集において類を見ないパフォーマンスを達成したことがわかりました。これにより、画像とシーンの操作によって生じる困難を克服するためのこの手法の価値と優れた性能が示されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ミストラルAIは、パワフルなスパースな専門家の

人工知能の進展に向けて、革新的なオープンモデルを提供するパイオニアであるMistral AIが、Mixtral 8x7Bを発表しました。こ...

機械学習

Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクス...

機械学習

「2024年のソフトウェア開発のトレンドと予測18」

2024年のソフトウェア開発の世界は、急速な技術の進歩と同時に進化するセキュリティの課題に備えています

AIニュース

「OpenAIのAI検出ツールは、AIによって生成されたコンテンツの74%を検出できない」

OpenAIは、画期的な生成型AIチャットボットChatGPTの製造元であり、最近、AI分類ツールの提供を中止したことで話題となりまし...

データサイエンス

データ・コモンズは、AIを使用して世界の公共データをよりアクセスしやすく、役に立つものにしています

「データコモンズ」についての説明これは、Googleが公に利用可能なデータを社会的な課題の解決に取り組む人々により有益にす...

AI研究

UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮...