マルチディフュージョンによる画像生成のための統一されたAIフレームワーク、事前学習されたテキストから画像へのディフュージョンモデルを使用して、多目的かつ制御可能な画像生成を実現します

A unified AI framework for image generation using multi-diffusion, achieving versatile and controllable image generation through a diffusion model from pre-trained text to image.

拡散モデルは現在の最先端のテキストから画像を生成するモデルとして位置付けられていますが、これらは以前に聞いたことのないスキルを持ち、高品質で多様な画像をテキストのプロンプトから生成する能力を持つ「破壊的技術」として浮上しています。生成された素材に対してユーザーが直感的な制御を与える能力は、テキストから画像へのモデルにとって依然として課題であり、この進歩はデジタルコンテンツの作成方法を変革する可能性を秘めています。

現在、拡散モデルを制御するための2つの技術があります:(i) ゼロからモデルを訓練するか、(ii) 手元の拡散モデルを微調整するかです。微調整の場合でも、これらの戦略は頻繁に大量の計算と長期間の開発期間を必要とすることがあります。既に訓練されたモデルを再利用し、いくつかの制御された生成能力を追加する(ii)という手法もあります。一部の手法は以前から特定のタスクに焦点を当て、特化した方法論を作成してきました。本研究では、制御された画像生成への参照拡散モデルの適応性を大幅に向上させる新しい統合フレームワークであるMultiDiffusionを生成します。

図1:MultiDiffusionによって、所望のアスペクト比やラフな領域ベースのテキストプロンプトなどの作成コンテンツに対する多くの制御が統合されることで、柔軟なテキストから画像への生成が可能になります。

MultiDiffusionの基本的な目標は、複数の参照拡散生成プロセスを共通の特性や制約で結合した新しい生成プロセスを設計することです。生成された画像の異なる領域は、参照拡散モデルによってより具体的に各領域のノイズ除去サンプリングステップを予測します。MultiDiffusionは、これらの個別のフェーズを調整するために、最小二乗法の最適解を使用してグローバルなノイズ除去サンプリングステップを実行します。たとえば、正方形の画像でトレーニングされた参照拡散モデルを使用して、任意のアスペクト比を持つ画像を作成するという課題を考えてみましょう(下図2)。

図2:MultiDiffusion:事前にトレーニングされた参照モデルΦに対して新しい生成プロセスΨを定義します。各生成ステップでは、ノイズ画像JTから、各クロップFi(Jt)ができるだけそのノイズ除去バージョンΦ(Fi(Jt))に近づくように最適化タスクを解決します。各ノイズ除去ステップΦ(Fi(Jt))は異なる方向に引っ張られるかもしれませんが、そのプロセスはこれらの一貫性のない方向をグローバルなノイズ除去ステップΦ(Jt)に統合し、高品質なシームレスな画像を生成します。

MultiDiffusionは、参照モデルが各ノイズ除去プロセスの各フェーズで提供する正方形のクロップからのノイズ除去方向を結合します。それらを可能な限り追いかけようとしますが、隣接するクロップが共通のピクセルを共有することで妨げられます。各クロップは異なる方向にノイズ除去を引っ張るかもしれませんが、彼らのフレームワークは単一のノイズ除去フェーズに結果を収束させ、高品質でシームレスな画像を生成します。各クロップが参照モデルの真のサンプルを表すようにしましょう。

MultiDiffusionを使用することで、事前にトレーニングされた参照テキストから画像へのモデルを、特定の解像度やアスペクト比で画像を生成したり、読み取りにくい領域ベースのテキストプロンプトから画像を生成したりするなど、さまざまなタスクに適用することができます(図1参照)。重要なのは、このアーキテクチャが共有の開発プロセスを利用して両方のタスクを同時に解決することができる点です。関連するベースラインと比較して、これらの手法はこれらのジョブに特化して訓練されたアプローチと比較しても最先端の制御された生成品質を達成できることを彼らは発見しました。また、彼らの手法は計算負荷を増やすことなく効果的に動作します。完全なコードベースは近日中に彼らのGithubページで公開される予定です。また、プロジェクトページでさらにデモをご覧いただけます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

カリフォルニア州での山火事との戦いにAIが役立つ方法

カリフォルニア州は、州を壊滅させた山火事に対抗する新たな武器、AIを手に入れました。 NVIDIAのGPUで訓練されたAIによって...

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...

機械学習

オペレーションの頭脳:人工知能とデジタルツインで手術の未来を地図化するアトラスメディテック

アスリートが試合のためにトレーニングし、俳優が公演のためにリハーサルするように、外科医も手術の前に準備をします。 今、...

データサイエンス

「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう?」

この記事は次の記事に基づいています:https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読ん...

AI研究

「AIIMSデリーが医療のためのロボット技術、AI、およびドローンの研究を開始」

医療の常に進化し続ける世界で先行するために、インドの名門医学研究所であるオールインド医科学研究所(AIIMS)デリーは未来...