『ScaleCrafterを知る:事前学習済みの拡散モデルによる超高解像度画像合成の解放』

『ScaleCrafterを駆使する:事前学習済みの拡散モデルで高解像度画像合成の新時代が到来』

画像合成技術の開発は、近年著しい上昇を経験し、学術界や産業界から大きな関心を集めています。テキストから画像を生成するモデルや安定拡散(SD)は、この分野で最も広く利用されている進展です。これらのモデルは注目すべき能力を示していますが、現在は最大解像度1024 x 1024ピクセルの画像しか生成することができず、広告などの高解像度アプリケーションの要件を満たすには不十分です。

これらのトレーニング解像度よりも大きな画像を生成しようとすると、オブジェクトの繰り返しや変形されたオブジェクトの構造などの問題が発生します。ステーブル拡散モデルを使用して512 × 512または1024 x 1024の寸法で画像を生成しようとする場合、オブジェクトの重複がより問題となります。

オブジェクトの繰り返しや誤ったオブジェクトの形態など、これらの問題は主にオブジェクトの重複や誤ったオブジェクトの形態として現れます。結合拡散技術や注意機構に基づいたより高解像度の画像を作成するための既存の方法は、これらの問題に十分に対処することが難しいとされています。研究者は、問題の原因となる重要な要素である畳み込みカーネルの制約された知覚フィールドを拡散モデルのU-Netアーキテクチャの構造要素に詳細に検討することにより、オブジェクトの再現などの問題が生じるわけです。つまり、入力画像の内容を見て理解する能力に制約があるため、オブジェクトの再発のような問題が生じるのです。

研究チームは、推論時の高解像度可視化のためにScaleCrafterを提案しました。これは再膨張と呼ばれる、単純でありながらも非常に強力な解決策であり、畳み込みの知覚フィールドを画像生成プロセス全体で動的に調整することによって、モデルがより高い解像度と異なるアスペクト比を効果的に処理できるようにします。このモデルは、受容野を動的に調整することにより、生成される画像の一貫性と品質を向上させることができます。この研究ではさらに二つの進歩が提案されており、拡散畳み込みとノイズ抑制分類器フリーガイダンスです。これにより、モデルは4096×4096ピクセルの超高解像度の写真を生成することができます。この方法では、追加のトレーニングや最適化の段階を必要とせず、高解像度の画像合成の繰り返しや構造的な問題に対する実用的な解決策となります。

この研究では、オブジェクトの繰り返しの問題に対処し、特に複雑なテクスチャの詳細を表示することで、より高い解像度の画像を生成するという提案手法が成功裏に評価されました。また、これまで低解像度の画像でトレーニングされた拡散モデルを使用して高解像度の視覚表現を生成するために、多くの再トレーニングを必要とせずに済む可能性にも光を当てており、今後の超高解像度画像や動画合成の研究に向けた指針となるでしょう。

主な貢献は以下のとおりです。

  1. チームは、オブジェクトの繰り返しの主な原因は注目トークンの数ではなく、畳み込み手順の制約された受容野であることを発見しました。
  1. これらの結果に基づいて、チームは、推論が進行している間に畳み込み受容野を動的に増加させる再膨張アプローチを提案し、問題の根本に取り組んでいます。
  1. 拡散畳み込みとノイズ抑制分類器フリーガイダンスという二つの革新的な戦略が紹介されました。これらは、超高解像度の画像の作成に使用されるものです。
  1. この手法は、テキストから動画へのモデルに適用され、さまざまな拡散モデルを含む多様なイテレーションで包括的に評価されています。これらのテストにはさまざまなアスペクト比と画像解像度が含まれており、オブジェクトの再発の問題や高解像度画像合成の改善におけるモデルの効果を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIを活用した言語学習のためのパーソナルボイスボット」

新しい言語をマスターする最も効果的な方法は何ですか?話すことです!しかし、他の人の前で新しい単語やフレーズを試すこと...

データサイエンス

テキストブック品質の合成データを使用して言語モデルをトレーニングする

マイクロソフトリサーチは、データの役割についての現在進行中の議論に新たな燃料を加える論文を発表しました具体的には、デ...

機械学習

GLIP オブジェクト検出への言語-画像事前学習の導入

今日は、言語-画像の事前学習であるCLIPの素晴らしい成功を基に、物体検出のタスクに拡張した論文であるGLIPについて掘り下げ...

データサイエンス

QRコードに飽きた?独自のフィジュアルマーカーを作りましょう

「QRコードを置き換えるためにフィドゥシャリマーカーを作成する方法を学びましょう:設計から検出まで、解読を通して、すべ...

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...

AI研究

オープンAIのCEOであるサム・アルトマン氏が解任されました

驚きの展開となり、AI研究のリーディングカンパニーであるOpenAIは、共同創設者兼CEOのサム・オールトマン氏の解任を発表しま...