北京大学とマイクロソフトの研究者がCOLEを紹介:シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク

「北京大学とマイクロソフトの研究者がCOLEを紹介:効果的な階層生成フレームワークによってシンプルな意図プロンプトを高品質なグラフィックデザインに変換」

最近の品質の顕著な向上により、自然な写真制作はプロの写真と同等になりました。この進歩は、DALL·E3、SDXL、およびImagenなどのテクノロジーの創造に起因します。これらの開発を推進する主要な要素は、強力な大規模言語モデル(LLM)をテキストエンコーダとして使用し、トレーニングデータセットを拡大し、モデルの複雑さを増すこと、より良いサンプリング戦略の設計、およびデータの品質向上です。研究チームは、特にブランディング、マーケティング、広告において重要な機能を持つグラフィックデザインにおいて、よりプロフェッショナルなイメージの開発に焦点を当てる時期だと感じています。

グラフィックデザインは、明確なメッセージを特定の社会グループに伝えるために視覚コミュニケーションの力を利用する専門分野です。それは想像力、独創性、迅速な思考を要求する領域です。グラフィックデザインでは、テキストとビジュアルをデジタルまたはマニュアルの方法で組み合わせて、視覚的に魅力的なストーリーを作成します。その主な目的は、データを整理し、概念に意味を与え、人間の経験を文書化するオブジェクトに表現と感情を提供することです。グラフィックデザインでは、書体の創造的な使用、テキストの配列、装飾、および画像によって、言葉だけでは表現できないアイデア、感情、態度を許容します。一流のデザインを生み出すには、高い想像力、独創性、斬新な思考が必要です。

現在の研究によると、画期的なDALL·E3は、図1で見られるように、魅力的なレイアウトとグラフィックを特徴とする高品質のデザイン画像を生み出す非凡なスキルを持っています。ただし、これらの画像には欠点もあります。彼らの持続的な課題には、しばしばビジュアルテキストが不適切に表示されたり、追加の文字が入ったりするミスレンダリングが含まれます。また、これらの作成された画像は編集できないため、セグメンテーション、消去、およびインペインティングのような複雑な手順が必要です。ユーザーが包括的なテキストプロンプトを提供する要件も重要な制約です。視覚デザインの制作において良いプロンプトを作成するには、高いプロフェッショナルスキルが必要です。

図1: DALL·E3によって作成されたデザイン画像を示すためにDESIGNERINTENTIONを使用しています(GPT-4で増強)。

図2に示すように、DALL·E3とは異なり、彼らのCOLEシステムは基本的な要求だけで優れた品質のグラフィックデザイン画像を生み出すことができます。研究チームによると、これらの3つの制約は、グラフィックデザイン画像の品質を深刻に損なっています。高品質でスケーラブルな視覚デザイン生成システムは、柔軟な編集領域を提供し、さまざまな用途に適した正確で高品質なタイポグラフィック情報を生成し、ユーザーに低い努力を要求する必要があります。ユーザーはさらに結果を向上させるために必要に応じて人間のスキルを使用することができます。この取り組みは、ユーザーの意図プロンプトから優れたグラフィックデザイン画像を生成できる安定かつ効果的な自律型のテキスト-デザインシステムを確立することを目指しています。

図2: COLEシステムによって生成された画像の視覚的な表現が上記に示されています。興味深いことに、システムが受け取る唯一の入力はテキストの意図的な説明です。残りの要素であるテキスト、デザイングラフィック、およびフォントタイプ、サイズ、位置などの関連するタイポグラフィックのプロパティは、すべてインテリジェントシステムによって独立して生成されます。

マイクロソフトリサーチアジアと北京大学の研究チームは、グラフィックデザイン画像の作成プロセスを簡素化するための階層的生成アプローチであるCOLEを提案しています。このプロセスでは、異なるサブタスクに取り組むいくつかの専門的な生成モデルが関与しています。

まず第一に、想像力に重点を置いたデザインと解釈、特に意図の理解に焦点を当てています。これは、最新のLLM、具体的にはLlama2-13Bを使用し、100,000点近くの選り抜かれた意図-JSONペアリングの大規模なデータセットを用いて最適化することによって達成されます。テキストの説明、アイテムのキャプション、背景のキャプションなど、デザインに関連する重要な情報は、JSONファイルに含まれています。研究チームは、オブジェクトの位置などの追加の目的のためにオプションのパラメーターも提供しています。

次に、ビジュアルの配置と改善に焦点を当てており、ビジュアルのコンポーネントの作成とタイポグラフィの特徴の2つのサブタスクが含まれています。さまざまなビジュアルの特徴を作成するには、DeepFloyd/IFなどの特化したカスケード拡散モデルの微調整が必要です。これらのモデルは、レイヤー化されたオブジェクトの画像と装飾された背景などのコンポーネント間のスムーズな移行が保証されるように構築されています。その後、研究チームは、LLaVA-1.5-13Bを使用して構築されたタイポグラフィJSONファイルを予測します。これには、Design LLMからの予測されたJSONファイル、拡散モデルからの予測された背景画像、およびカスケード拡散モデルからの予測されたオブジェクト画像が使用されます。そして、ビジュアルレンダラーが予測されたJSONファイル内で見つかったレイアウトを使用してこれらのコンポーネントを組み立てます。

第三に、プロセスの最後に品質保証とコメントが提供され、デザイン全体の品質を向上させます。反射LLMは丹念に調整する必要があり、包括的かつ多面的な品質評価のためにGPT-4V(ision)を使用する必要があります。この最後の段階では、テキストボックスのサイズや位置など、必要に応じてJSONファイルを微調整することが容易になります。最後に、研究チームは、さまざまなカテゴリにまたがる約200のプロのグラフィックデザイン意図プロンプトと約20のクリエイティブなプロンプトからなるDESIGNERINTENTIONを構築し、システムの能力を評価しました。そして、現在使用されている最先端の画像生成システムとのアプローチの比較、各生成モデルについての抜本的な消去実験、システムによって生成されたグラフィックデザインの徹底的な分析、そしてグラフィックデザイン画像生成の欠点と潜在的な将来の方向についての議論を行いました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

時系列予測のためのXGBoostの活用

「あなたのデータから予測するための強力なアルゴリズムを有効にする」

AI研究

「SimCLRの最大の問題を修正する〜BYOL論文の解説」

SimCLRは対比学習のアイデアを成功裏に実装し、当時新たな最先端の性能を達成しました!それにもかかわらず、このアイデアに...

AIテクノロジー

SQLを練習するための最高のプラットフォーム

SQL、またはStructured Query Language(構造化クエリ言語)は、データベースの言語です。コンピュータがデータを理解し管理...

機械学習

GoogleのAIがPaLI-3を紹介:10倍も大きい似たモデルと比べて、より小型、高速、かつ強力なビジョン言語モデル(VLM)です

ビジョン言語モデル(VLM)は、自然言語理解と画像認識の能力を組み合わせた高度な人工知能システムです。OpenAIのCLIPやGoog...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです