北京大学とマイクロソフトの研究者がCOLEを紹介:シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク

「北京大学とマイクロソフトの研究者がCOLEを紹介:効果的な階層生成フレームワークによってシンプルな意図プロンプトを高品質なグラフィックデザインに変換」

最近の品質の顕著な向上により、自然な写真制作はプロの写真と同等になりました。この進歩は、DALL·E3、SDXL、およびImagenなどのテクノロジーの創造に起因します。これらの開発を推進する主要な要素は、強力な大規模言語モデル(LLM)をテキストエンコーダとして使用し、トレーニングデータセットを拡大し、モデルの複雑さを増すこと、より良いサンプリング戦略の設計、およびデータの品質向上です。研究チームは、特にブランディング、マーケティング、広告において重要な機能を持つグラフィックデザインにおいて、よりプロフェッショナルなイメージの開発に焦点を当てる時期だと感じています。

グラフィックデザインは、明確なメッセージを特定の社会グループに伝えるために視覚コミュニケーションの力を利用する専門分野です。それは想像力、独創性、迅速な思考を要求する領域です。グラフィックデザインでは、テキストとビジュアルをデジタルまたはマニュアルの方法で組み合わせて、視覚的に魅力的なストーリーを作成します。その主な目的は、データを整理し、概念に意味を与え、人間の経験を文書化するオブジェクトに表現と感情を提供することです。グラフィックデザインでは、書体の創造的な使用、テキストの配列、装飾、および画像によって、言葉だけでは表現できないアイデア、感情、態度を許容します。一流のデザインを生み出すには、高い想像力、独創性、斬新な思考が必要です。

現在の研究によると、画期的なDALL·E3は、図1で見られるように、魅力的なレイアウトとグラフィックを特徴とする高品質のデザイン画像を生み出す非凡なスキルを持っています。ただし、これらの画像には欠点もあります。彼らの持続的な課題には、しばしばビジュアルテキストが不適切に表示されたり、追加の文字が入ったりするミスレンダリングが含まれます。また、これらの作成された画像は編集できないため、セグメンテーション、消去、およびインペインティングのような複雑な手順が必要です。ユーザーが包括的なテキストプロンプトを提供する要件も重要な制約です。視覚デザインの制作において良いプロンプトを作成するには、高いプロフェッショナルスキルが必要です。

図1: DALL·E3によって作成されたデザイン画像を示すためにDESIGNERINTENTIONを使用しています(GPT-4で増強)。

図2に示すように、DALL·E3とは異なり、彼らのCOLEシステムは基本的な要求だけで優れた品質のグラフィックデザイン画像を生み出すことができます。研究チームによると、これらの3つの制約は、グラフィックデザイン画像の品質を深刻に損なっています。高品質でスケーラブルな視覚デザイン生成システムは、柔軟な編集領域を提供し、さまざまな用途に適した正確で高品質なタイポグラフィック情報を生成し、ユーザーに低い努力を要求する必要があります。ユーザーはさらに結果を向上させるために必要に応じて人間のスキルを使用することができます。この取り組みは、ユーザーの意図プロンプトから優れたグラフィックデザイン画像を生成できる安定かつ効果的な自律型のテキスト-デザインシステムを確立することを目指しています。

図2: COLEシステムによって生成された画像の視覚的な表現が上記に示されています。興味深いことに、システムが受け取る唯一の入力はテキストの意図的な説明です。残りの要素であるテキスト、デザイングラフィック、およびフォントタイプ、サイズ、位置などの関連するタイポグラフィックのプロパティは、すべてインテリジェントシステムによって独立して生成されます。

マイクロソフトリサーチアジアと北京大学の研究チームは、グラフィックデザイン画像の作成プロセスを簡素化するための階層的生成アプローチであるCOLEを提案しています。このプロセスでは、異なるサブタスクに取り組むいくつかの専門的な生成モデルが関与しています。

まず第一に、想像力に重点を置いたデザインと解釈、特に意図の理解に焦点を当てています。これは、最新のLLM、具体的にはLlama2-13Bを使用し、100,000点近くの選り抜かれた意図-JSONペアリングの大規模なデータセットを用いて最適化することによって達成されます。テキストの説明、アイテムのキャプション、背景のキャプションなど、デザインに関連する重要な情報は、JSONファイルに含まれています。研究チームは、オブジェクトの位置などの追加の目的のためにオプションのパラメーターも提供しています。

次に、ビジュアルの配置と改善に焦点を当てており、ビジュアルのコンポーネントの作成とタイポグラフィの特徴の2つのサブタスクが含まれています。さまざまなビジュアルの特徴を作成するには、DeepFloyd/IFなどの特化したカスケード拡散モデルの微調整が必要です。これらのモデルは、レイヤー化されたオブジェクトの画像と装飾された背景などのコンポーネント間のスムーズな移行が保証されるように構築されています。その後、研究チームは、LLaVA-1.5-13Bを使用して構築されたタイポグラフィJSONファイルを予測します。これには、Design LLMからの予測されたJSONファイル、拡散モデルからの予測された背景画像、およびカスケード拡散モデルからの予測されたオブジェクト画像が使用されます。そして、ビジュアルレンダラーが予測されたJSONファイル内で見つかったレイアウトを使用してこれらのコンポーネントを組み立てます。

第三に、プロセスの最後に品質保証とコメントが提供され、デザイン全体の品質を向上させます。反射LLMは丹念に調整する必要があり、包括的かつ多面的な品質評価のためにGPT-4V(ision)を使用する必要があります。この最後の段階では、テキストボックスのサイズや位置など、必要に応じてJSONファイルを微調整することが容易になります。最後に、研究チームは、さまざまなカテゴリにまたがる約200のプロのグラフィックデザイン意図プロンプトと約20のクリエイティブなプロンプトからなるDESIGNERINTENTIONを構築し、システムの能力を評価しました。そして、現在使用されている最先端の画像生成システムとのアプローチの比較、各生成モデルについての抜本的な消去実験、システムによって生成されたグラフィックデザインの徹底的な分析、そしてグラフィックデザイン画像生成の欠点と潜在的な将来の方向についての議論を行いました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「BeLFusionに出会ってください:潜在的拡散を用いた現実的かつ多様な確率的人間の動作予測のための行動的潜在空間アプローチ」

人工知能(AI)が世界を魅了し続ける中で、コンピュータビジョンとAIの交差点において、人間の動き予測(HMP)という注目すべ...

データサイエンス

機械学習を直感的に理解する

確かに、ChatGPTのようなモデルの実際の理論は認めるには非常に難しいですが、機械学習(ML)の根底にある直感は、まあ、直感...

AIニュース

「英国初のAIカメラ、わずか3日で300人の犯罪者を摘発」

イギリスの道路安全の風景は、フリースタンディングの人工知能(AI)道路安全カメラの登場によって革命的な変革を遂げていま...

機械学習

「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。 カー...

データサイエンス

Amazon SageMakerを使用してモデルの精度を向上させるために、ファンデーションモデルを使用します

「住宅の価値を決定することは機械学習(ML)の典型的な例ですこの投稿では、ビジュアル質問応答(VQA)のために特に設計され...