マルチディフュージョンによる画像生成のための統一されたAIフレームワーク、事前学習されたテキストから画像へのディフュージョンモデルを使用して、多目的かつ制御可能な画像生成を実現します

A unified AI framework for image generation using multi-diffusion, achieving versatile and controllable image generation through a diffusion model from pre-trained text to image.

拡散モデルは現在の最先端のテキストから画像を生成するモデルとして位置付けられていますが、これらは以前に聞いたことのないスキルを持ち、高品質で多様な画像をテキストのプロンプトから生成する能力を持つ「破壊的技術」として浮上しています。生成された素材に対してユーザーが直感的な制御を与える能力は、テキストから画像へのモデルにとって依然として課題であり、この進歩はデジタルコンテンツの作成方法を変革する可能性を秘めています。

現在、拡散モデルを制御するための2つの技術があります:(i) ゼロからモデルを訓練するか、(ii) 手元の拡散モデルを微調整するかです。微調整の場合でも、これらの戦略は頻繁に大量の計算と長期間の開発期間を必要とすることがあります。既に訓練されたモデルを再利用し、いくつかの制御された生成能力を追加する(ii)という手法もあります。一部の手法は以前から特定のタスクに焦点を当て、特化した方法論を作成してきました。本研究では、制御された画像生成への参照拡散モデルの適応性を大幅に向上させる新しい統合フレームワークであるMultiDiffusionを生成します。

図1:MultiDiffusionによって、所望のアスペクト比やラフな領域ベースのテキストプロンプトなどの作成コンテンツに対する多くの制御が統合されることで、柔軟なテキストから画像への生成が可能になります。

MultiDiffusionの基本的な目標は、複数の参照拡散生成プロセスを共通の特性や制約で結合した新しい生成プロセスを設計することです。生成された画像の異なる領域は、参照拡散モデルによってより具体的に各領域のノイズ除去サンプリングステップを予測します。MultiDiffusionは、これらの個別のフェーズを調整するために、最小二乗法の最適解を使用してグローバルなノイズ除去サンプリングステップを実行します。たとえば、正方形の画像でトレーニングされた参照拡散モデルを使用して、任意のアスペクト比を持つ画像を作成するという課題を考えてみましょう(下図2)。

図2:MultiDiffusion:事前にトレーニングされた参照モデルΦに対して新しい生成プロセスΨを定義します。各生成ステップでは、ノイズ画像JTから、各クロップFi(Jt)ができるだけそのノイズ除去バージョンΦ(Fi(Jt))に近づくように最適化タスクを解決します。各ノイズ除去ステップΦ(Fi(Jt))は異なる方向に引っ張られるかもしれませんが、そのプロセスはこれらの一貫性のない方向をグローバルなノイズ除去ステップΦ(Jt)に統合し、高品質なシームレスな画像を生成します。

MultiDiffusionは、参照モデルが各ノイズ除去プロセスの各フェーズで提供する正方形のクロップからのノイズ除去方向を結合します。それらを可能な限り追いかけようとしますが、隣接するクロップが共通のピクセルを共有することで妨げられます。各クロップは異なる方向にノイズ除去を引っ張るかもしれませんが、彼らのフレームワークは単一のノイズ除去フェーズに結果を収束させ、高品質でシームレスな画像を生成します。各クロップが参照モデルの真のサンプルを表すようにしましょう。

MultiDiffusionを使用することで、事前にトレーニングされた参照テキストから画像へのモデルを、特定の解像度やアスペクト比で画像を生成したり、読み取りにくい領域ベースのテキストプロンプトから画像を生成したりするなど、さまざまなタスクに適用することができます(図1参照)。重要なのは、このアーキテクチャが共有の開発プロセスを利用して両方のタスクを同時に解決することができる点です。関連するベースラインと比較して、これらの手法はこれらのジョブに特化して訓練されたアプローチと比較しても最先端の制御された生成品質を達成できることを彼らは発見しました。また、彼らの手法は計算負荷を増やすことなく効果的に動作します。完全なコードベースは近日中に彼らのGithubページで公開される予定です。また、プロジェクトページでさらにデモをご覧いただけます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

リアルタイムなSlackボットを生成的AIで構築する

「Apache NiFi、LLM、Foundation Models、およびストリーミングを使用して、クールなSlackbotを構築する方法を学びましょうモ...

人工知能

「IntelのOpenVINOツールキットを使用したAI最適化と展開のマスタリング」

イントロダクション 人間の労働力を置き換えるAIの影響が増しているため、私たちはほぼ毎日AIについて話題にしています。AIを...

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...

データサイエンス

「ダイナミックな時代のソフトウェアリーダーシップの活路」

ソフトウェア業界でリーダーシップを発揮することが一筋縄ではいかない理由を探求しましょう過去の成功に依存するリスク、無...

機械学習

大規模言語モデルの探索 -Part 1

この記事は主に自己学習のために書かれていますそのため、広範囲かつ深い内容です興味のあるセクションをスキップしたり、自...

機械学習

「大規模言語モデルの微調整方法:ステップバイステップガイド」

2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル(LLM)の台頭は、人工知能の民主化の傾向を示し...