DragonDiffusionをご紹介します:拡散モデルでのドラッグスタイル操作を可能にする細かい画像編集手法

Introducing DragonDiffusion A fine image editing technique that enables drag-style manipulation in diffusion models.

大規模なテキストから画像(T2I)の拡散モデルは、与えられたテキスト/プロンプトに基づいて画像を生成することを目指しており、多くの訓練データと大規模なコンピュータの能力のおかげで急速に発展しています。それにもかかわらず、この生成能力はしばしば異なっており、ユーザーが考えているものと互換性のある画像を生成するための適切なプロンプトを開発し、既存の画像を基にさらなる修正を行うことが難しいことがあります。

画像の編集には画像の作成よりもさまざまな要件があります。潜在空間が小さく、容易に操作可能なため、GANベースの手法が画像編集に広く適用されています。拡散モデルはより安定しており、より良質な出力を生成します。

北京大学とARC Lab、Tencent PCGによる新しい研究論文は、拡散モデルが同様のドラッグの機能を持つ可能性があるかどうかを確認することを目指しています。

これを実装する上での基本的な困難は、コンパクトで編集可能な潜在空間が必要です。多くの拡散ベースの画像編集手法は、これらの中間テキストと画像の特性の類似性に基づいて開発されています。研究では、クロスアテンションマップで単語とオブジェクトの特徴の強い局所的な類似性が見つかりましたが、これは編集に利用することができます。

大規模なT2I拡散生成プロセスにおいて、テキストの特性と中間的な画像の特徴の間には堅牢な相関関係がありますが、中間的な画像の特徴の間にも堅牢な対応関係があります。この特徴はDIFTで調査され、これらの特徴の間の対応関係が高い程度であり、類似した領域を直接比較することが可能になります。画像要素間のこの高い類似性のため、チームはこの手法を使用して画像の修正を行います。

拡散モデルの中間表現を適応させるために、研究者は特徴対応の損失により編集信号を勾配に変換するドラゴンディフュージョンと呼ばれる分類器ガイダンスベースの戦略を考案しました。提案された拡散手法では、異なるステージで2つのグループの特徴(ガイダンス特徴と生成特徴)を使用します。堅牢な画像特徴の対応により、彼らはガイダンス特徴に基づいて生成特徴を修正し、洗練させます。強い画像特徴の対応は、変更された画像と元の画像の内容の一貫性を保つのにも役立ちます。

この文脈では、研究者は同時にDrag-Diffusionと呼ばれる別の作業も調査していることがわかります。これは、元の見た目を保つためにLORAを使用し、拡散手順の単一の中間ステップを最適化することで編集プロセスを改善します。DragDiffusionのようなモデルの微調整やトレーニングではなく、この作業で提案された手法は分類器ガイダンスに基づいており、すべての編集と内容の一貫性の信号は画像から直接来ます。

DragonDiffusionは、すべての内容の修正と保存の信号を元の画像から取得します。モデルの微調整やトレーニングは必要ありません。拡散モデルのT2I作成能力は、直接画像編集アプリケーションに転用することができます。

広範な試験により、提案されたDragonDiffusionは、オブジェクトのサイズ変更や再配置、外観の変更、コンテンツのドラッグなど、幅広い微細な画像変更タスクを実行できることが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ショッピファイの製品推奨アプリに生成AIを導入する

ショッピファイの製品推薦アプリケーションであるSearch and DiscoveryにジェネレーティブAIがどのように実装されたかについ...

データサイエンス

UC Berkeleyの研究者たちは、ディープラーニングにおいて効率的なデータ圧縮とスパース化を実現するための新しいホワイトボックストランスフォーマーであるCRATEを提案しています

最近、深層学習の実用的な成功は、高次元で多様なデータの処理とモデリングにおけるもので、指数関数的に成長しています。こ...

AIニュース

「ウェブパブリッシャーコントロールの最新情報」

「私たちはGoogle-Extendedを発表しますこれは、ウェブパブリッシャーが自分たちのサイトがBardとVertex AIの生成APIを改善す...

機械学習

「ChatGPTにおける自然言語入力のパワーを解き放つ」

自然言語の入力でChatGPTの機能を最大限に活用しましょう高度なモデルからのリアルな対話と正確な応答をお楽しみください今日...

機械学習

「ヘルスケアとゲノミクス産業が機械学習とAIで革新する方法」

AIと機械学習は医療研究のやり方を変えつつありますAIが薬剤探索、ゲノミクス、およびタンパク質の折りたたみに革新をもたら...

機械学習

「仕事は続けられますが、同じ仕事ではありません」

「AIが私たちのコーディングスキルに迫っている一方で、人間の言語を完全に習得したわけではありませんそれが私たちの競争上...