テキストから画像合成を革新する:UCバークレーの研究者たちは、強化された空間的および常識的推論のために、大規模言語モデルを2段階の生成プロセスで利用しています

UC Berkeley researchers use large language models in a two-stage generation process to revolutionize image synthesis from text for enhanced spatial and commonsense reasoning.

テキストから画像を生成する最近の進歩により、高度に現実的で多様な画像を合成できる拡散モデルが登場しました。しかし、その印象的な能力にもかかわらず、Stable Diffusionのような拡散モデルは、空間的または常識的推論を必要とするプロンプトに支援が必要であり、生成された画像に不正確さが生じることがあります。

この課題に対処するため、UCバークレーとUCSFの研究チームは、テキストから画像を生成する際のプロンプト理解を向上させる革新的なLMD接地拡散(LMD)手法を提案しました。彼らは、否定、数値、属性割り当て、空間関係を含むシナリオを特定し、Stable Diffusionに比べてLMDの短所を明らかにしました。

研究者たちは、大規模言語モデル(LLM)と拡散モデルのトレーニングにかかるコストと時間を避けるコスト効率の高い解決策を採用しました。彼らは、オフ・ザ・シェルフの凍結LLMを拡散モデルに統合し、拡散モデルにより強化された空間的および常識的推論能力を提供する2段階の生成プロセスを実現しました。

第1段階では、LLMはコンテキスト学習を通じてテキストによるレイアウトジェネレーターとして機能するように適応されます。画像のプロンプトが与えられると、LLMはバウンディングボックスとそれに対応する説明から構成されるシーンレイアウトを生成します。第2段階では、生成されたレイアウトによって拡散モデルが誘導され、画像を生成します。両段階で、LLMまたは拡散モデルのパラメータ最適化なしに凍結された事前トレーニングモデルが使用されます。

LMDには、プロンプト理解を改善する以外にも、いくつかの利点があります。ダイアログベースのマルチラウンドシーン指定を可能にし、ユーザーが各プロンプトに対して追加の説明や修正を提供できるようにします。さらに、LMDは、基礎となる拡散モデルでサポートされていない言語のプロンプトを処理できます。マルチラウンドのダイアログをサポートするLLMを組み込むことで、初期のレイアウト生成後にLLMにクエリを送信し、追加の画像生成のための更新されたレイアウトを受け取ることができます。これにより、オブジェクトの追加や場所や説明の変更などの要求が容易になります。

さらに、LMDは、コンテキスト学習中に英語のレイアウトと背景説明とともに非英語のプロンプトの例を提供することで、非英語のプロンプトを受け入れることができます。これにより、与えられた言語に対応するサポートがない場合でも、LMDは英語の説明を持つレイアウトを生成できます。

研究者たちは、LMDが利用する基本的な拡散モデルであるStable Diffusion 2.1と比較することで、LMDの優越性を検証しました。より包括的な評価とさらなる比較については、彼らの研究を探索するように読者を招待しています。

要約すると、LMDは、空間的または常識的推論を必要とするプロンプトに正確に従うための拡散モデルの制限に対処する革新的なアプローチを提供します。凍結LLMを組み込み、2段階の生成プロセスを採用することで、LMDはテキストから画像を生成するタスクにおけるプロンプト理解を大幅に強化します。また、ダイアログベースのシーン指定やサポートされていない言語のプロンプトの処理など、追加の機能を提供します。研究チームの業績は、オフ・ザ・シェルフの凍結モデルを統合することで、合成された画像の正確性と多様性を向上させるための新しい可能性を開くものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AWSの知的ドキュメント処理を生成AIで強化する

「データの分類、抽出、分析は、大量の文書を扱う組織にとって困難な課題です従来の文書処理ソリューションは手作業が必要で...

機械学習

セールスフォースAIがGlueGenを導入:効率的なエンコーダのアップグレードとマルチモーダル機能により、テキストから画像へのモデルが革新的になります

テキストから画像への変換(T2I)モデルの急速に進化する風景の中で、GlueGenの導入により新たなフロンティアが現れています...

データサイエンス

「スノーフレーク vs データブリックス:最高のクラウドデータプラットフォームを作るために競争する」

「最高のクラウドデータプラットフォームの競争に参加したいですか?SnowflakeとData Bricksの違いを見てみてください」

データサイエンス

技術と金融の交差点における成功

シタデルの創設者兼CEOであるケン・グリフィン氏がMITを訪問し、テクノロジーが取引や投資を続けて変革していく方法について...

AI研究

マイクロソフトリサーチとジョージア工科大学の研究者が、言語モデルの幻覚の統計的な境界を公表しました

最近、言語モデルで浮かび上がった主要な問題の一つは、言語モデル(LM)が存在しない記事タイトルへの言及を含む誤った情報...

AIニュース

「無人運転車は子供や肌の色の濃い人を見つけるのに苦労するかもしれません」

「科学者たちは、自動運転車の研究で使用される8つの人工知能ベースの歩行者検出器を評価し、それらが子供や肌の色の濃い人を...