DragonDiffusionをご紹介します:拡散モデルでのドラッグスタイル操作を可能にする細かい画像編集手法

Introducing DragonDiffusion A fine image editing technique that enables drag-style manipulation in diffusion models.

大規模なテキストから画像(T2I)の拡散モデルは、与えられたテキスト/プロンプトに基づいて画像を生成することを目指しており、多くの訓練データと大規模なコンピュータの能力のおかげで急速に発展しています。それにもかかわらず、この生成能力はしばしば異なっており、ユーザーが考えているものと互換性のある画像を生成するための適切なプロンプトを開発し、既存の画像を基にさらなる修正を行うことが難しいことがあります。

画像の編集には画像の作成よりもさまざまな要件があります。潜在空間が小さく、容易に操作可能なため、GANベースの手法が画像編集に広く適用されています。拡散モデルはより安定しており、より良質な出力を生成します。

北京大学とARC Lab、Tencent PCGによる新しい研究論文は、拡散モデルが同様のドラッグの機能を持つ可能性があるかどうかを確認することを目指しています。

これを実装する上での基本的な困難は、コンパクトで編集可能な潜在空間が必要です。多くの拡散ベースの画像編集手法は、これらの中間テキストと画像の特性の類似性に基づいて開発されています。研究では、クロスアテンションマップで単語とオブジェクトの特徴の強い局所的な類似性が見つかりましたが、これは編集に利用することができます。

大規模なT2I拡散生成プロセスにおいて、テキストの特性と中間的な画像の特徴の間には堅牢な相関関係がありますが、中間的な画像の特徴の間にも堅牢な対応関係があります。この特徴はDIFTで調査され、これらの特徴の間の対応関係が高い程度であり、類似した領域を直接比較することが可能になります。画像要素間のこの高い類似性のため、チームはこの手法を使用して画像の修正を行います。

拡散モデルの中間表現を適応させるために、研究者は特徴対応の損失により編集信号を勾配に変換するドラゴンディフュージョンと呼ばれる分類器ガイダンスベースの戦略を考案しました。提案された拡散手法では、異なるステージで2つのグループの特徴(ガイダンス特徴と生成特徴)を使用します。堅牢な画像特徴の対応により、彼らはガイダンス特徴に基づいて生成特徴を修正し、洗練させます。強い画像特徴の対応は、変更された画像と元の画像の内容の一貫性を保つのにも役立ちます。

この文脈では、研究者は同時にDrag-Diffusionと呼ばれる別の作業も調査していることがわかります。これは、元の見た目を保つためにLORAを使用し、拡散手順の単一の中間ステップを最適化することで編集プロセスを改善します。DragDiffusionのようなモデルの微調整やトレーニングではなく、この作業で提案された手法は分類器ガイダンスに基づいており、すべての編集と内容の一貫性の信号は画像から直接来ます。

DragonDiffusionは、すべての内容の修正と保存の信号を元の画像から取得します。モデルの微調整やトレーニングは必要ありません。拡散モデルのT2I作成能力は、直接画像編集アプリケーションに転用することができます。

広範な試験により、提案されたDragonDiffusionは、オブジェクトのサイズ変更や再配置、外観の変更、コンテンツのドラッグなど、幅広い微細な画像変更タスクを実行できることが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIによるテキストメッセージングの変革:自然言語処理技術の詳細な探求

「自然言語処理(NLP)の技術によるテキストメッセージングにおける人工知能(AI)の影響を深く探求し、洞察を得る」

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

機械学習

DeepMindのAIマスターゲーマー:2時間で26のゲームを学習

強化学習は、Google DeepMindの中核的な研究分野であり、AIを用いて実世界の問題を解決するための膨大な可能性を秘めています...

機械学習

アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となって...

人工知能

「6週間でCassandraにベクトル検索を追加するのにAIがどのように役立ったのか」

「DataStaxは、この基礎となるAI機能を追加するために迅速に動かなければなりませんでしたChatGPT、Copilot、および他のAIツ...

データサイエンス

エンジニアリングリーダーは何を気にしているのか?

私たちのエンジニアリングリーダーズフォーラム ラウンドテーブルのまとめと、VPたちがAI、ChatGPT、リモートワーク、DORAメ...