テキストから画像合成を革新する:UCバークレーの研究者たちは、強化された空間的および常識的推論のために、大規模言語モデルを2段階の生成プロセスで利用しています
UC Berkeley researchers use large language models in a two-stage generation process to revolutionize image synthesis from text for enhanced spatial and commonsense reasoning.
テキストから画像を生成する最近の進歩により、高度に現実的で多様な画像を合成できる拡散モデルが登場しました。しかし、その印象的な能力にもかかわらず、Stable Diffusionのような拡散モデルは、空間的または常識的推論を必要とするプロンプトに支援が必要であり、生成された画像に不正確さが生じることがあります。
この課題に対処するため、UCバークレーとUCSFの研究チームは、テキストから画像を生成する際のプロンプト理解を向上させる革新的なLMD接地拡散(LMD)手法を提案しました。彼らは、否定、数値、属性割り当て、空間関係を含むシナリオを特定し、Stable Diffusionに比べてLMDの短所を明らかにしました。
研究者たちは、大規模言語モデル(LLM)と拡散モデルのトレーニングにかかるコストと時間を避けるコスト効率の高い解決策を採用しました。彼らは、オフ・ザ・シェルフの凍結LLMを拡散モデルに統合し、拡散モデルにより強化された空間的および常識的推論能力を提供する2段階の生成プロセスを実現しました。
- Meta AIとSamsungの研究者が、学習率適応のための2つの新しいAI手法、ProdigyとResettingを導入し、最先端のD-Adaptation手法の適応率を改善しました
- サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました
- LinkedInとUCバークレーの研究者らは、AIによって生成されたプロフィール写真を検出する新しい方法を提案しています
第1段階では、LLMはコンテキスト学習を通じてテキストによるレイアウトジェネレーターとして機能するように適応されます。画像のプロンプトが与えられると、LLMはバウンディングボックスとそれに対応する説明から構成されるシーンレイアウトを生成します。第2段階では、生成されたレイアウトによって拡散モデルが誘導され、画像を生成します。両段階で、LLMまたは拡散モデルのパラメータ最適化なしに凍結された事前トレーニングモデルが使用されます。
LMDには、プロンプト理解を改善する以外にも、いくつかの利点があります。ダイアログベースのマルチラウンドシーン指定を可能にし、ユーザーが各プロンプトに対して追加の説明や修正を提供できるようにします。さらに、LMDは、基礎となる拡散モデルでサポートされていない言語のプロンプトを処理できます。マルチラウンドのダイアログをサポートするLLMを組み込むことで、初期のレイアウト生成後にLLMにクエリを送信し、追加の画像生成のための更新されたレイアウトを受け取ることができます。これにより、オブジェクトの追加や場所や説明の変更などの要求が容易になります。
さらに、LMDは、コンテキスト学習中に英語のレイアウトと背景説明とともに非英語のプロンプトの例を提供することで、非英語のプロンプトを受け入れることができます。これにより、与えられた言語に対応するサポートがない場合でも、LMDは英語の説明を持つレイアウトを生成できます。
研究者たちは、LMDが利用する基本的な拡散モデルであるStable Diffusion 2.1と比較することで、LMDの優越性を検証しました。より包括的な評価とさらなる比較については、彼らの研究を探索するように読者を招待しています。
要約すると、LMDは、空間的または常識的推論を必要とするプロンプトに正確に従うための拡散モデルの制限に対処する革新的なアプローチを提供します。凍結LLMを組み込み、2段階の生成プロセスを採用することで、LMDはテキストから画像を生成するタスクにおけるプロンプト理解を大幅に強化します。また、ダイアログベースのシーン指定やサポートされていない言語のプロンプトの処理など、追加の機能を提供します。研究チームの業績は、オフ・ザ・シェルフの凍結モデルを統合することで、合成された画像の正確性と多様性を向上させるための新しい可能性を開くものです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 私の博士号入学への道 – 人工知能
- Google研究者がAudioPaLMを導入:音声技術における革新者 – 聞き、話し、そして前例のない精度で翻訳する新しい大規模言語モデル
- 計算機の進歩により、研究者はより高い信頼性で気候をモデル化することができるようになります
- ロボットの犬がMJスタイルでムーンウォークをする:このAI研究は、コードで表現された報酬を、LLMと最適化ベースのモーションコントローラーの間の柔軟なインターフェースとして使用することを提案しています
- メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました
- ChatGPTの哲学コース:このAI研究は、対話エージェントのLLMの振る舞いを探究します
- Google Researchにおける責任あるAI 社会的善のためのAI