マルチディフュージョンによる画像生成のための統一されたAIフレームワーク、事前学習されたテキストから画像へのディフュージョンモデルを使用して、多目的かつ制御可能な画像生成を実現します

A unified AI framework for image generation using multi-diffusion, achieving versatile and controllable image generation through a diffusion model from pre-trained text to image.

拡散モデルは現在の最先端のテキストから画像を生成するモデルとして位置付けられていますが、これらは以前に聞いたことのないスキルを持ち、高品質で多様な画像をテキストのプロンプトから生成する能力を持つ「破壊的技術」として浮上しています。生成された素材に対してユーザーが直感的な制御を与える能力は、テキストから画像へのモデルにとって依然として課題であり、この進歩はデジタルコンテンツの作成方法を変革する可能性を秘めています。

現在、拡散モデルを制御するための2つの技術があります:(i) ゼロからモデルを訓練するか、(ii) 手元の拡散モデルを微調整するかです。微調整の場合でも、これらの戦略は頻繁に大量の計算と長期間の開発期間を必要とすることがあります。既に訓練されたモデルを再利用し、いくつかの制御された生成能力を追加する(ii)という手法もあります。一部の手法は以前から特定のタスクに焦点を当て、特化した方法論を作成してきました。本研究では、制御された画像生成への参照拡散モデルの適応性を大幅に向上させる新しい統合フレームワークであるMultiDiffusionを生成します。

図1:MultiDiffusionによって、所望のアスペクト比やラフな領域ベースのテキストプロンプトなどの作成コンテンツに対する多くの制御が統合されることで、柔軟なテキストから画像への生成が可能になります。

MultiDiffusionの基本的な目標は、複数の参照拡散生成プロセスを共通の特性や制約で結合した新しい生成プロセスを設計することです。生成された画像の異なる領域は、参照拡散モデルによってより具体的に各領域のノイズ除去サンプリングステップを予測します。MultiDiffusionは、これらの個別のフェーズを調整するために、最小二乗法の最適解を使用してグローバルなノイズ除去サンプリングステップを実行します。たとえば、正方形の画像でトレーニングされた参照拡散モデルを使用して、任意のアスペクト比を持つ画像を作成するという課題を考えてみましょう(下図2)。

図2:MultiDiffusion:事前にトレーニングされた参照モデルΦに対して新しい生成プロセスΨを定義します。各生成ステップでは、ノイズ画像JTから、各クロップFi(Jt)ができるだけそのノイズ除去バージョンΦ(Fi(Jt))に近づくように最適化タスクを解決します。各ノイズ除去ステップΦ(Fi(Jt))は異なる方向に引っ張られるかもしれませんが、そのプロセスはこれらの一貫性のない方向をグローバルなノイズ除去ステップΦ(Jt)に統合し、高品質なシームレスな画像を生成します。

MultiDiffusionは、参照モデルが各ノイズ除去プロセスの各フェーズで提供する正方形のクロップからのノイズ除去方向を結合します。それらを可能な限り追いかけようとしますが、隣接するクロップが共通のピクセルを共有することで妨げられます。各クロップは異なる方向にノイズ除去を引っ張るかもしれませんが、彼らのフレームワークは単一のノイズ除去フェーズに結果を収束させ、高品質でシームレスな画像を生成します。各クロップが参照モデルの真のサンプルを表すようにしましょう。

MultiDiffusionを使用することで、事前にトレーニングされた参照テキストから画像へのモデルを、特定の解像度やアスペクト比で画像を生成したり、読み取りにくい領域ベースのテキストプロンプトから画像を生成したりするなど、さまざまなタスクに適用することができます(図1参照)。重要なのは、このアーキテクチャが共有の開発プロセスを利用して両方のタスクを同時に解決することができる点です。関連するベースラインと比較して、これらの手法はこれらのジョブに特化して訓練されたアプローチと比較しても最先端の制御された生成品質を達成できることを彼らは発見しました。また、彼らの手法は計算負荷を増やすことなく効果的に動作します。完全なコードベースは近日中に彼らのGithubページで公開される予定です。また、プロジェクトページでさらにデモをご覧いただけます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

分散システム設計におけるコンセンサスアルゴリズムの役割の探索

この記事では、信頼性、データの一貫性、および耐障害性を確保する責任を負う人々の重要性と役割について探求します

データサイエンス

「限られた訓練データで機械学習モデルは信頼性のある結果を生み出すのか?ケンブリッジ大学とコーネル大学の新しいAI研究がそれを見つけました...」

ディープラーニングは、音声認識から自律システム、コンピュータビジョン、自然言語処理まで、人工知能の中で強力で画期的な...

機械学習

「ビジュアルAIがカナダ最大かつ最も賑やかな空港で飛躍する」

カナダのオンタリオ州にあるトロントピアソン国際空港は、年間約5000万人の旅客にサービスを提供する国内最大かつ最も混雑し...

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

機械学習

「P+にお会いしましょう:テキストから画像生成における拡張テキスト反転のための豊かな埋め込み空間」

テキストから画像の合成は、テキストのプロンプト記述から現実的な画像を生成するプロセスを指します。この技術は、人工知能...

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...