「DenseDiffusionとの出会い:テキストから画像生成における密なキャプションとレイアウト操作に対処するためのトレーニング不要のAI技術」
DenseDiffusion Training-free AI technology for handling dense captions and layout manipulation in text-to-image generation.
テキストから画像を生成するモデルの最近の進歩により、短いシーンの説明に基づいて高品質の画像を生成することができる洗練されたシステムが生まれました。しかし、これらのモデルは複雑なキャプションに直面すると困難に直面し、しばしば異なるオブジェクトに関連する視覚的属性の省略や混合が生じます。この文脈での「dense」の用語は、個々のフレーズが画像内の特定の領域を説明するために使用されるdense captioningの概念に根ざしています。さらに、テキストのプロンプトのみを使用して生成された画像内の要素の配置を正確に指示することにユーザーは課題に直面しています。
最近のいくつかの研究では、ユーザーにレイアウトに基づいた空間制御を提供する解決策を提案しています。特定のアプローチ(「Make-aScene」や「Latent Diffusion Models」など)では、テキストとレイアウトの条件の両方でモデルを構築しますが、他の同時的な方法(「SpaText」や「ControlNet」など)では、既存のテキストから画像へのモデルに補足的な空間制御を導入するために微調整を行います。残念ながら、モデルのトレーニングや微調整は計算量が多くかかることがあります。さらに、モデルは新しいユーザー条件、ドメイン、またはベースのテキストから画像へのモデルごとに再トレーニングを必要とします。
上記の問題に基づいて、dense captionsを収容しレイアウト操作を提供するための新しいトレーニングフリーのテクニックであるDenseDiffusionが提案されています。
- 「Amazon LexとAmazon Kendra、そして大規模な言語モデルを搭載したAWSソリューションのQnABotを使用して、セルフサービス型の質問応答を展開してください」
- 「クラスの不均衡:ランダムオーバーサンプリングからROSEへ」
- 深層学習フレームワークの比較
メインのアイデアを提示する前に、拡散モデルがどのように機能するかについて簡単に説明します。拡散モデルは、ランダムノイズから始まり、連続的なノイズ除去ステップを通じて画像を生成します。ノイズ予測ネットワークは追加されたノイズを推定し、各ステップでより鮮明な画像をレンダリングしようとします。最近のモデルでは、生成された画像を大幅に犠牲にすることなく、より速い結果を得るために、ノイズ除去ステップの数を減らしています。
最先端の拡散モデルには、自己注意と交差注意の2つの重要なブロックがあります。
自己注意層では、中間特徴がコンテキスト特徴として機能します。これにより、さまざまな領域にわたる画像トークンの間の接続を確立することで、グローバルに一貫した構造を作成することができます。同時に、交差注意層は、入力テキストキャプションから得られたテキスト特徴に基づいて適応し、エンコードにCLIPテキストエンコーダーを使用します。
前述のように、DenseDiffusionのメインのアイデアは、生成された画像のレイアウトと自己注意と交差注意マップの間の大きな相関関係を明らかにするために、事前にトレーニングされたテキストから画像への拡散モデルの中間特徴を検証することです。この洞察から、中間の注意マップはレイアウト条件に基づいて動的に調整されます。さらに、このアプローチでは、各セグメントの領域に基づいて元の注意スコア範囲を考慮し、調整の範囲を微調整する必要があります。この研究では、DenseDiffusionの性能を「Stable Diffusion」モデルの性能向上に活用し、dense captions、テキストとレイアウトの条件、および画像の品質において複数の構成拡散モデルを凌駕する能力を示しています。
研究から選択されたサンプルの結果は、以下の画像で示されています。これらの視覚的な比較は、DenseDiffusionと最先端の手法の間の概要を提供します。
これは、DenseDiffusionという新しいAIのトレーニングフリーテクニックについての要約であり、dense captionsを収容し、テキストから画像への合成においてレイアウト操作を提供します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles