『ScaleCrafterを知る:事前学習済みの拡散モデルによる超高解像度画像合成の解放』
『ScaleCrafterを駆使する:事前学習済みの拡散モデルで高解像度画像合成の新時代が到来』
画像合成技術の開発は、近年著しい上昇を経験し、学術界や産業界から大きな関心を集めています。テキストから画像を生成するモデルや安定拡散(SD)は、この分野で最も広く利用されている進展です。これらのモデルは注目すべき能力を示していますが、現在は最大解像度1024 x 1024ピクセルの画像しか生成することができず、広告などの高解像度アプリケーションの要件を満たすには不十分です。
これらのトレーニング解像度よりも大きな画像を生成しようとすると、オブジェクトの繰り返しや変形されたオブジェクトの構造などの問題が発生します。ステーブル拡散モデルを使用して512 × 512または1024 x 1024の寸法で画像を生成しようとする場合、オブジェクトの重複がより問題となります。
オブジェクトの繰り返しや誤ったオブジェクトの形態など、これらの問題は主にオブジェクトの重複や誤ったオブジェクトの形態として現れます。結合拡散技術や注意機構に基づいたより高解像度の画像を作成するための既存の方法は、これらの問題に十分に対処することが難しいとされています。研究者は、問題の原因となる重要な要素である畳み込みカーネルの制約された知覚フィールドを拡散モデルのU-Netアーキテクチャの構造要素に詳細に検討することにより、オブジェクトの再現などの問題が生じるわけです。つまり、入力画像の内容を見て理解する能力に制約があるため、オブジェクトの再発のような問題が生じるのです。
- 大規模言語モデルにおける推論力の向上:正確かつ転送可能なルールベース学習のための仮説から理論へ(HtT)フレームワークをご覧ください
- 「LlamaIndex vs LangChain 比較分析」
- RAGのNLPにおける検索と生成の統一的な革新的アプローチ
研究チームは、推論時の高解像度可視化のためにScaleCrafterを提案しました。これは再膨張と呼ばれる、単純でありながらも非常に強力な解決策であり、畳み込みの知覚フィールドを画像生成プロセス全体で動的に調整することによって、モデルがより高い解像度と異なるアスペクト比を効果的に処理できるようにします。このモデルは、受容野を動的に調整することにより、生成される画像の一貫性と品質を向上させることができます。この研究ではさらに二つの進歩が提案されており、拡散畳み込みとノイズ抑制分類器フリーガイダンスです。これにより、モデルは4096×4096ピクセルの超高解像度の写真を生成することができます。この方法では、追加のトレーニングや最適化の段階を必要とせず、高解像度の画像合成の繰り返しや構造的な問題に対する実用的な解決策となります。
この研究では、オブジェクトの繰り返しの問題に対処し、特に複雑なテクスチャの詳細を表示することで、より高い解像度の画像を生成するという提案手法が成功裏に評価されました。また、これまで低解像度の画像でトレーニングされた拡散モデルを使用して高解像度の視覚表現を生成するために、多くの再トレーニングを必要とせずに済む可能性にも光を当てており、今後の超高解像度画像や動画合成の研究に向けた指針となるでしょう。
主な貢献は以下のとおりです。
- チームは、オブジェクトの繰り返しの主な原因は注目トークンの数ではなく、畳み込み手順の制約された受容野であることを発見しました。
- これらの結果に基づいて、チームは、推論が進行している間に畳み込み受容野を動的に増加させる再膨張アプローチを提案し、問題の根本に取り組んでいます。
- 拡散畳み込みとノイズ抑制分類器フリーガイダンスという二つの革新的な戦略が紹介されました。これらは、超高解像度の画像の作成に使用されるものです。
- この手法は、テキストから動画へのモデルに適用され、さまざまな拡散モデルを含む多様なイテレーションで包括的に評価されています。これらのテストにはさまざまなアスペクト比と画像解像度が含まれており、オブジェクトの再発の問題や高解像度画像合成の改善におけるモデルの効果を示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles