HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化

HuggingFace Researchが紹介するLEDITS:リアルイメージ編集の次なる進化

テキストガイド拡散モデルを利用した写真生成の現実感と多様性の向上により、関心が大幅に高まっています。大規模モデルの導入により、写真の作成時には前例のないほどのクリエイティブな柔軟性がユーザーに与えられるようになりました。その結果、画像操作にこれらの強力なモデルを使用する方法を調査するための継続的な研究プロジェクトが開発されました。テキストベースの画像操作に関する最近の進歩が示されました。他の研究者は最近、拡散モデルに対する意味的なガイダンス(SEGA)のアイデアを発表しました。

SEGAは、高度な画像の構成と編集のスキルを持ち、現在の生成プロセス全体で外部の監視や計算を必要としませんでした。SEGAに関連するアイデアベクトルは、信頼性があり、独立しており、組み合わせが柔軟であり、単調にスケーリングすることが示されました。さらなる研究では、Prompt-to-Promptなどのセマンティック理解に基づく画像の生成方法について検討しました。この方法では、モデルのクロスアテンション層のセマンティックデータを使用してピクセルとテキストプロンプトトークンをリンクさせます。SEGAはトークンベースの条件付けを必要とせず、多くの意味的な変更の組み合わせを可能にする一方、クロスアテンションマップ上の操作により、生成される画像への多様な変更が可能になります。

実際の写真のテキストガイド編集には、提供された画像を反転させるために現代の技術が必要です。これには、拡散プロセスに入力された場合に入力画像となる一連のノイズベクトルを見つける必要があります。ほとんどの拡散ベースの編集研究では、単一のノイズマップから生成された画像への確定的マッピングであるDenoising Diffusion Implicit Model(DDIM)技術が使用されています。他の研究者によって、Denoising Diffusion Probabilistic Model(DDPM)スキームの反転アプローチも提案されました。

DDPMスキームの拡散生成プロセスで使用されるノイズマップが、従来のDDPMサンプリングで使用されるものとは異なる動作をするため、より大きな分散を持ち、タイムステップ間でより相関があります。ノイズマップの計算には、新しい方法が提案されています。DDIMベースの反転技術とは対照的に、Edit Friendly DDPM Inversionは、テキストベースの編集ジョブで最先端の結果を提供し、各入力画像とテキストに対してさまざまな出力を生成することが実証されています。このレビューでは、HuggingFaceの研究者がSEGAとDDPM反転手法またはLEDITSの組み合わせと統合を気軽に調査することを目的としています。

セマンティックに指示された拡散生成メカニズムは、LEDITSで変更されます。このアップデートにより、SEGAの手法が実際の写真に拡張されます。両手法の同時編集機能を利用する統合編集戦略が提案され、最先端の技術を使用して競争力のある質的な結果が示されています。HuggingFaceデモとコードも提供されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

より速い治療:Insilico Medicineが生成型AIを使用して薬剤開発を加速する方法

生成AIは比較的新しい家庭用語ですが、薬剤研究会社Insilico Medicineは、長年にわたってこれを使用して、深刻な疾患の新しい...

機械学習

セマンティックヒアリング:リアルな環境で特定の音を重点的に集中させたり無視したりしながら、空間認識を維持するための機械学習に基づくヒアラブルデバイスの新しい機能

ワシントン大学とマイクロソフトの研究者は、先進的な機械学習アルゴリズムによって駆動される意味解釈能力を持つノイズキャ...

データサイエンス

「Skill-it」とは、言語モデルの理解とトレーニングのためのデータ駆動型スキルフレームワークです

大規模言語モデル(LM)は、ソースコードの作成、オリジナルの芸術作品の作成、人との対話など、非常に能力が高いです。モデ...

データサイエンス

トランザクション分析:情報を解放し、貸し出しの判断をするための洞察を得る

「よりダイナミックで包括的で効率的な金融の景観を追求するために、トランザクション分析の変革力を探求してください」

AI研究

UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit(HUB)」を紹介しました

強化学習(RL)において、学習プロセスに人間からのフィードバックを効果的に統合することは、重要な課題として浮上していま...

AI研究

コーネル大学の人工知能(AI)研究者たちは、ビデオマッティングの問題に対処するための新しいニューラルネットワークフレームワークを提案しています

画像と動画の編集は、コンピュータユーザーにとって最も人気のあるアプリケーションの2つです。機械学習(ML)とディープラー...