テキストから画像合成を革新する:UCバークレーの研究者たちは、強化された空間的および常識的推論のために、大規模言語モデルを2段階の生成プロセスで利用しています

UC Berkeley researchers use large language models in a two-stage generation process to revolutionize image synthesis from text for enhanced spatial and commonsense reasoning.

テキストから画像を生成する最近の進歩により、高度に現実的で多様な画像を合成できる拡散モデルが登場しました。しかし、その印象的な能力にもかかわらず、Stable Diffusionのような拡散モデルは、空間的または常識的推論を必要とするプロンプトに支援が必要であり、生成された画像に不正確さが生じることがあります。

この課題に対処するため、UCバークレーとUCSFの研究チームは、テキストから画像を生成する際のプロンプト理解を向上させる革新的なLMD接地拡散(LMD)手法を提案しました。彼らは、否定、数値、属性割り当て、空間関係を含むシナリオを特定し、Stable Diffusionに比べてLMDの短所を明らかにしました。

研究者たちは、大規模言語モデル(LLM)と拡散モデルのトレーニングにかかるコストと時間を避けるコスト効率の高い解決策を採用しました。彼らは、オフ・ザ・シェルフの凍結LLMを拡散モデルに統合し、拡散モデルにより強化された空間的および常識的推論能力を提供する2段階の生成プロセスを実現しました。

第1段階では、LLMはコンテキスト学習を通じてテキストによるレイアウトジェネレーターとして機能するように適応されます。画像のプロンプトが与えられると、LLMはバウンディングボックスとそれに対応する説明から構成されるシーンレイアウトを生成します。第2段階では、生成されたレイアウトによって拡散モデルが誘導され、画像を生成します。両段階で、LLMまたは拡散モデルのパラメータ最適化なしに凍結された事前トレーニングモデルが使用されます。

LMDには、プロンプト理解を改善する以外にも、いくつかの利点があります。ダイアログベースのマルチラウンドシーン指定を可能にし、ユーザーが各プロンプトに対して追加の説明や修正を提供できるようにします。さらに、LMDは、基礎となる拡散モデルでサポートされていない言語のプロンプトを処理できます。マルチラウンドのダイアログをサポートするLLMを組み込むことで、初期のレイアウト生成後にLLMにクエリを送信し、追加の画像生成のための更新されたレイアウトを受け取ることができます。これにより、オブジェクトの追加や場所や説明の変更などの要求が容易になります。

さらに、LMDは、コンテキスト学習中に英語のレイアウトと背景説明とともに非英語のプロンプトの例を提供することで、非英語のプロンプトを受け入れることができます。これにより、与えられた言語に対応するサポートがない場合でも、LMDは英語の説明を持つレイアウトを生成できます。

研究者たちは、LMDが利用する基本的な拡散モデルであるStable Diffusion 2.1と比較することで、LMDの優越性を検証しました。より包括的な評価とさらなる比較については、彼らの研究を探索するように読者を招待しています。

要約すると、LMDは、空間的または常識的推論を必要とするプロンプトに正確に従うための拡散モデルの制限に対処する革新的なアプローチを提供します。凍結LLMを組み込み、2段階の生成プロセスを採用することで、LMDはテキストから画像を生成するタスクにおけるプロンプト理解を大幅に強化します。また、ダイアログベースのシーン指定やサポートされていない言語のプロンプトの処理など、追加の機能を提供します。研究チームの業績は、オフ・ザ・シェルフの凍結モデルを統合することで、合成された画像の正確性と多様性を向上させるための新しい可能性を開くものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文では、大規模言語モデルでの関連しない行動について探求されています:“シミュレートされた株式取引におけるGPT-4の欺瞞的な戦略”

一部の高度なAIシステムが戦略的な欺瞞を行う可能性について懸念が出ています。AIシステムの安全性を評価することに特化したA...

機械学習

『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者...

データサイエンス

「初期ランキング段階への原則的なアプローチ」

「レコメンデーションシステムでは、レコメンドの構築にはいくつかの段階があるとよく知られていますまずは候補生成、または...

データサイエンス

「データプライバシーを見る新しい方法」

研究者たちは、機械学習モデルの性能を維持しながら、機密データを保護するプライバシー技術を開発しました

AIニュース

ジェネレーティブAIアプリケーションを構築するための最高のPythonツール チートシート

「VoAGI」新しいチートシートは、OpenAIやTransformersなど、ジェネラティブAIアプリを構築するためのトップPythonライブラリ...