HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化

HuggingFace Researchが紹介するLEDITS:リアルイメージ編集の次なる進化

テキストガイド拡散モデルを利用した写真生成の現実感と多様性の向上により、関心が大幅に高まっています。大規模モデルの導入により、写真の作成時には前例のないほどのクリエイティブな柔軟性がユーザーに与えられるようになりました。その結果、画像操作にこれらの強力なモデルを使用する方法を調査するための継続的な研究プロジェクトが開発されました。テキストベースの画像操作に関する最近の進歩が示されました。他の研究者は最近、拡散モデルに対する意味的なガイダンス(SEGA)のアイデアを発表しました。

SEGAは、高度な画像の構成と編集のスキルを持ち、現在の生成プロセス全体で外部の監視や計算を必要としませんでした。SEGAに関連するアイデアベクトルは、信頼性があり、独立しており、組み合わせが柔軟であり、単調にスケーリングすることが示されました。さらなる研究では、Prompt-to-Promptなどのセマンティック理解に基づく画像の生成方法について検討しました。この方法では、モデルのクロスアテンション層のセマンティックデータを使用してピクセルとテキストプロンプトトークンをリンクさせます。SEGAはトークンベースの条件付けを必要とせず、多くの意味的な変更の組み合わせを可能にする一方、クロスアテンションマップ上の操作により、生成される画像への多様な変更が可能になります。

実際の写真のテキストガイド編集には、提供された画像を反転させるために現代の技術が必要です。これには、拡散プロセスに入力された場合に入力画像となる一連のノイズベクトルを見つける必要があります。ほとんどの拡散ベースの編集研究では、単一のノイズマップから生成された画像への確定的マッピングであるDenoising Diffusion Implicit Model(DDIM)技術が使用されています。他の研究者によって、Denoising Diffusion Probabilistic Model(DDPM)スキームの反転アプローチも提案されました。

DDPMスキームの拡散生成プロセスで使用されるノイズマップが、従来のDDPMサンプリングで使用されるものとは異なる動作をするため、より大きな分散を持ち、タイムステップ間でより相関があります。ノイズマップの計算には、新しい方法が提案されています。DDIMベースの反転技術とは対照的に、Edit Friendly DDPM Inversionは、テキストベースの編集ジョブで最先端の結果を提供し、各入力画像とテキストに対してさまざまな出力を生成することが実証されています。このレビューでは、HuggingFaceの研究者がSEGAとDDPM反転手法またはLEDITSの組み合わせと統合を気軽に調査することを目的としています。

セマンティックに指示された拡散生成メカニズムは、LEDITSで変更されます。このアップデートにより、SEGAの手法が実際の写真に拡張されます。両手法の同時編集機能を利用する統合編集戦略が提案され、最先端の技術を使用して競争力のある質的な結果が示されています。HuggingFaceデモとコードも提供されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

OpenAIのChatGPTが音声と画像の機能を発表:AI対話における革命的な飛躍

オープンAIは、AIとの人間の対話を革新するために、ChatGPTに音声と画像の機能を導入することで、大きな進化を遂げようとして...

データサイエンス

Salesforce AIとコロンビア大学の研究者が、DialogStudioを導入しましたこれは、80の対話データセットの統一された多様なコレクションであり、元の情報を保持しています

会話AIは近年、著しい進化を遂げ、機械とユーザーの間で人間のような対話を可能にしています。この進歩を推進している重要な...

データサイエンス

中国の研究者が、脳損傷セグメンテーションのためのデータ拡張手法CarveMixを提案しています

畳み込みニューラルネットワーク(CNN)を用いた自動脳病巣セグメンテーションは、貴重な臨床診断や研究ツールとなっています...

AI研究

「CMUの研究者たちがRoboToolを公開:自然言語の指示を受け取り、シミュレーション環境と実世界のロボットを制御するための実行可能なコードを出力するAIシステム」

カーネギーメロン大学とGoogle DeepMindの研究者が協力して、RoboToolと呼ばれるシステムを開発しました。このシステムは大規...

機械学習

LangChain、Amazon SageMaker JumpStart、およびMongoDB Atlasの意味検索を利用した検索増強生成

生成AIモデルは、企業の業務を革命化する可能性がありますが、企業はデータの保護やAI生成コンテンツの品質を確保しながら、...