DragonDiffusionをご紹介します:拡散モデルでのドラッグスタイル操作を可能にする細かい画像編集手法

Introducing DragonDiffusion A fine image editing technique that enables drag-style manipulation in diffusion models.

大規模なテキストから画像(T2I)の拡散モデルは、与えられたテキスト/プロンプトに基づいて画像を生成することを目指しており、多くの訓練データと大規模なコンピュータの能力のおかげで急速に発展しています。それにもかかわらず、この生成能力はしばしば異なっており、ユーザーが考えているものと互換性のある画像を生成するための適切なプロンプトを開発し、既存の画像を基にさらなる修正を行うことが難しいことがあります。

画像の編集には画像の作成よりもさまざまな要件があります。潜在空間が小さく、容易に操作可能なため、GANベースの手法が画像編集に広く適用されています。拡散モデルはより安定しており、より良質な出力を生成します。

北京大学とARC Lab、Tencent PCGによる新しい研究論文は、拡散モデルが同様のドラッグの機能を持つ可能性があるかどうかを確認することを目指しています。

これを実装する上での基本的な困難は、コンパクトで編集可能な潜在空間が必要です。多くの拡散ベースの画像編集手法は、これらの中間テキストと画像の特性の類似性に基づいて開発されています。研究では、クロスアテンションマップで単語とオブジェクトの特徴の強い局所的な類似性が見つかりましたが、これは編集に利用することができます。

大規模なT2I拡散生成プロセスにおいて、テキストの特性と中間的な画像の特徴の間には堅牢な相関関係がありますが、中間的な画像の特徴の間にも堅牢な対応関係があります。この特徴はDIFTで調査され、これらの特徴の間の対応関係が高い程度であり、類似した領域を直接比較することが可能になります。画像要素間のこの高い類似性のため、チームはこの手法を使用して画像の修正を行います。

拡散モデルの中間表現を適応させるために、研究者は特徴対応の損失により編集信号を勾配に変換するドラゴンディフュージョンと呼ばれる分類器ガイダンスベースの戦略を考案しました。提案された拡散手法では、異なるステージで2つのグループの特徴(ガイダンス特徴と生成特徴)を使用します。堅牢な画像特徴の対応により、彼らはガイダンス特徴に基づいて生成特徴を修正し、洗練させます。強い画像特徴の対応は、変更された画像と元の画像の内容の一貫性を保つのにも役立ちます。

この文脈では、研究者は同時にDrag-Diffusionと呼ばれる別の作業も調査していることがわかります。これは、元の見た目を保つためにLORAを使用し、拡散手順の単一の中間ステップを最適化することで編集プロセスを改善します。DragDiffusionのようなモデルの微調整やトレーニングではなく、この作業で提案された手法は分類器ガイダンスに基づいており、すべての編集と内容の一貫性の信号は画像から直接来ます。

DragonDiffusionは、すべての内容の修正と保存の信号を元の画像から取得します。モデルの微調整やトレーニングは必要ありません。拡散モデルのT2I作成能力は、直接画像編集アプリケーションに転用することができます。

広範な試験により、提案されたDragonDiffusionは、オブジェクトのサイズ変更や再配置、外観の変更、コンテンツのドラッグなど、幅広い微細な画像変更タスクを実行できることが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対...

AIニュース

「AIによる気候変動対策の加速」

「ボストン・コンサルティング・グループとの新しいレポートによると、AIは世界の温室効果ガス排出量の5〜10%を軽減する可能...

AIニュース

「ユネスコ、AIチップの埋め込みに関するプライバシー懸念を指摘」

最近、国連は人工知能(AI)と先進的な神経技術の組み合わせに伴う潜在的な危険性について警告しました。報告によると、脳イ...

AI研究

「UCLAの研究者たちは、広帯域の回折光学ニューラルネットワークに基づいて設計されたマルチスペクトルQPIシステムを紹介する」

量子位相イメージング(QPI)は、多くの科学および顕微鏡の分野での最先端のイメージング手法です。透明または半透明の材料を...

機械学習

「SwiggyがZomatoとBlinkitに続き、生成AIを統合する」

Swiggy(スウィギー)、有名なフードデリバリープラットフォームは、生成AIの可能性を活用し、食品と食料品の発見方法を変革...

機械学習

「生成AIをめぐる旅」

私の豊富な経験に深く踏み込んで、全力でGenerative AIを受け入れ、あなたが利益を得るために活用できる貴重な洞察と知識を得...