テキストから画像合成を革新する:UCバークレーの研究者たちは、強化された空間的および常識的推論のために、大規模言語モデルを2段階の生成プロセスで利用しています

UC Berkeley researchers use large language models in a two-stage generation process to revolutionize image synthesis from text for enhanced spatial and commonsense reasoning.

テキストから画像を生成する最近の進歩により、高度に現実的で多様な画像を合成できる拡散モデルが登場しました。しかし、その印象的な能力にもかかわらず、Stable Diffusionのような拡散モデルは、空間的または常識的推論を必要とするプロンプトに支援が必要であり、生成された画像に不正確さが生じることがあります。

この課題に対処するため、UCバークレーとUCSFの研究チームは、テキストから画像を生成する際のプロンプト理解を向上させる革新的なLMD接地拡散(LMD)手法を提案しました。彼らは、否定、数値、属性割り当て、空間関係を含むシナリオを特定し、Stable Diffusionに比べてLMDの短所を明らかにしました。

研究者たちは、大規模言語モデル(LLM)と拡散モデルのトレーニングにかかるコストと時間を避けるコスト効率の高い解決策を採用しました。彼らは、オフ・ザ・シェルフの凍結LLMを拡散モデルに統合し、拡散モデルにより強化された空間的および常識的推論能力を提供する2段階の生成プロセスを実現しました。

第1段階では、LLMはコンテキスト学習を通じてテキストによるレイアウトジェネレーターとして機能するように適応されます。画像のプロンプトが与えられると、LLMはバウンディングボックスとそれに対応する説明から構成されるシーンレイアウトを生成します。第2段階では、生成されたレイアウトによって拡散モデルが誘導され、画像を生成します。両段階で、LLMまたは拡散モデルのパラメータ最適化なしに凍結された事前トレーニングモデルが使用されます。

LMDには、プロンプト理解を改善する以外にも、いくつかの利点があります。ダイアログベースのマルチラウンドシーン指定を可能にし、ユーザーが各プロンプトに対して追加の説明や修正を提供できるようにします。さらに、LMDは、基礎となる拡散モデルでサポートされていない言語のプロンプトを処理できます。マルチラウンドのダイアログをサポートするLLMを組み込むことで、初期のレイアウト生成後にLLMにクエリを送信し、追加の画像生成のための更新されたレイアウトを受け取ることができます。これにより、オブジェクトの追加や場所や説明の変更などの要求が容易になります。

さらに、LMDは、コンテキスト学習中に英語のレイアウトと背景説明とともに非英語のプロンプトの例を提供することで、非英語のプロンプトを受け入れることができます。これにより、与えられた言語に対応するサポートがない場合でも、LMDは英語の説明を持つレイアウトを生成できます。

研究者たちは、LMDが利用する基本的な拡散モデルであるStable Diffusion 2.1と比較することで、LMDの優越性を検証しました。より包括的な評価とさらなる比較については、彼らの研究を探索するように読者を招待しています。

要約すると、LMDは、空間的または常識的推論を必要とするプロンプトに正確に従うための拡散モデルの制限に対処する革新的なアプローチを提供します。凍結LLMを組み込み、2段階の生成プロセスを採用することで、LMDはテキストから画像を生成するタスクにおけるプロンプト理解を大幅に強化します。また、ダイアログベースのシーン指定やサポートされていない言語のプロンプトの処理など、追加の機能を提供します。研究チームの業績は、オフ・ザ・シェルフの凍結モデルを統合することで、合成された画像の正確性と多様性を向上させるための新しい可能性を開くものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...

データサイエンス

「ChatGPTコードインタプリタを使用して、人道支援データの非構造化Excelテーブルを分析する」

新しい実験的な機能「コードインタプリター」は、ChatGPTの使用の一環としてPythonコードの生成と実行をネイティブにサポート...

人工知能

ChatGPTを使ってコーディングする方法' (ChatGPTをつかってコーディングするほうほう)

イントロダクション 人工知能を現代のプログラミングに取り入れることで、効率とイノベーションの新時代が到来しました。Open...

機械学習

「ポッドキャスティングのためのトップAIツール(2023年)」

ポディウム ポディウムと呼ばれるAIパワードの技術は、ポッドキャストのポストプロダクションを大幅に加速することを意図して...

AI研究

研究者たちは、ビデオ記録を使用して、鳥の姿勢を3Dで追跡するための新しいマーカーレスAIメソッドを開発しました

動物や鳥の行動、視線、微小な動きを追跡することは、研究者にとって困難な課題であり、正確な3Dアノテーションと複数の角度...

AI研究

デジタルアートの革新:ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能(AI)に興味を引かせ...