北京大学とマイクロソフトの研究者がCOLEを紹介:シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク
「北京大学とマイクロソフトの研究者がCOLEを紹介:効果的な階層生成フレームワークによってシンプルな意図プロンプトを高品質なグラフィックデザインに変換」
最近の品質の顕著な向上により、自然な写真制作はプロの写真と同等になりました。この進歩は、DALL·E3、SDXL、およびImagenなどのテクノロジーの創造に起因します。これらの開発を推進する主要な要素は、強力な大規模言語モデル(LLM)をテキストエンコーダとして使用し、トレーニングデータセットを拡大し、モデルの複雑さを増すこと、より良いサンプリング戦略の設計、およびデータの品質向上です。研究チームは、特にブランディング、マーケティング、広告において重要な機能を持つグラフィックデザインにおいて、よりプロフェッショナルなイメージの開発に焦点を当てる時期だと感じています。
グラフィックデザインは、明確なメッセージを特定の社会グループに伝えるために視覚コミュニケーションの力を利用する専門分野です。それは想像力、独創性、迅速な思考を要求する領域です。グラフィックデザインでは、テキストとビジュアルをデジタルまたはマニュアルの方法で組み合わせて、視覚的に魅力的なストーリーを作成します。その主な目的は、データを整理し、概念に意味を与え、人間の経験を文書化するオブジェクトに表現と感情を提供することです。グラフィックデザインでは、書体の創造的な使用、テキストの配列、装飾、および画像によって、言葉だけでは表現できないアイデア、感情、態度を許容します。一流のデザインを生み出すには、高い想像力、独創性、斬新な思考が必要です。
現在の研究によると、画期的なDALL·E3は、図1で見られるように、魅力的なレイアウトとグラフィックを特徴とする高品質のデザイン画像を生み出す非凡なスキルを持っています。ただし、これらの画像には欠点もあります。彼らの持続的な課題には、しばしばビジュアルテキストが不適切に表示されたり、追加の文字が入ったりするミスレンダリングが含まれます。また、これらの作成された画像は編集できないため、セグメンテーション、消去、およびインペインティングのような複雑な手順が必要です。ユーザーが包括的なテキストプロンプトを提供する要件も重要な制約です。視覚デザインの制作において良いプロンプトを作成するには、高いプロフェッショナルスキルが必要です。
- このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています
- テキサス大学の研究者たちは、機械学習を用いてインプラントベースの再建合併症を予測する方法を紹介します
- 「ADHDを持つ思春期の若者において、この深層学習研究はMRIスキャンの分析において独特な脳の変化を明らかにする:MRIスキャン分析の飛躍的な進歩」
図2に示すように、DALL·E3とは異なり、彼らのCOLEシステムは基本的な要求だけで優れた品質のグラフィックデザイン画像を生み出すことができます。研究チームによると、これらの3つの制約は、グラフィックデザイン画像の品質を深刻に損なっています。高品質でスケーラブルな視覚デザイン生成システムは、柔軟な編集領域を提供し、さまざまな用途に適した正確で高品質なタイポグラフィック情報を生成し、ユーザーに低い努力を要求する必要があります。ユーザーはさらに結果を向上させるために必要に応じて人間のスキルを使用することができます。この取り組みは、ユーザーの意図プロンプトから優れたグラフィックデザイン画像を生成できる安定かつ効果的な自律型のテキスト-デザインシステムを確立することを目指しています。
マイクロソフトリサーチアジアと北京大学の研究チームは、グラフィックデザイン画像の作成プロセスを簡素化するための階層的生成アプローチであるCOLEを提案しています。このプロセスでは、異なるサブタスクに取り組むいくつかの専門的な生成モデルが関与しています。
まず第一に、想像力に重点を置いたデザインと解釈、特に意図の理解に焦点を当てています。これは、最新のLLM、具体的にはLlama2-13Bを使用し、100,000点近くの選り抜かれた意図-JSONペアリングの大規模なデータセットを用いて最適化することによって達成されます。テキストの説明、アイテムのキャプション、背景のキャプションなど、デザインに関連する重要な情報は、JSONファイルに含まれています。研究チームは、オブジェクトの位置などの追加の目的のためにオプションのパラメーターも提供しています。
次に、ビジュアルの配置と改善に焦点を当てており、ビジュアルのコンポーネントの作成とタイポグラフィの特徴の2つのサブタスクが含まれています。さまざまなビジュアルの特徴を作成するには、DeepFloyd/IFなどの特化したカスケード拡散モデルの微調整が必要です。これらのモデルは、レイヤー化されたオブジェクトの画像と装飾された背景などのコンポーネント間のスムーズな移行が保証されるように構築されています。その後、研究チームは、LLaVA-1.5-13Bを使用して構築されたタイポグラフィJSONファイルを予測します。これには、Design LLMからの予測されたJSONファイル、拡散モデルからの予測された背景画像、およびカスケード拡散モデルからの予測されたオブジェクト画像が使用されます。そして、ビジュアルレンダラーが予測されたJSONファイル内で見つかったレイアウトを使用してこれらのコンポーネントを組み立てます。
第三に、プロセスの最後に品質保証とコメントが提供され、デザイン全体の品質を向上させます。反射LLMは丹念に調整する必要があり、包括的かつ多面的な品質評価のためにGPT-4V(ision)を使用する必要があります。この最後の段階では、テキストボックスのサイズや位置など、必要に応じてJSONファイルを微調整することが容易になります。最後に、研究チームは、さまざまなカテゴリにまたがる約200のプロのグラフィックデザイン意図プロンプトと約20のクリエイティブなプロンプトからなるDESIGNERINTENTIONを構築し、システムの能力を評価しました。そして、現在使用されている最先端の画像生成システムとのアプローチの比較、各生成モデルについての抜本的な消去実験、システムによって生成されたグラフィックデザインの徹底的な分析、そしてグラフィックデザイン画像生成の欠点と潜在的な将来の方向についての議論を行いました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- コーネル大学の研究者たちは、言語モデルのプロンプトについての洞察を明らかにしました:次のトークンの確率が隠れたテキストを明らかにする方法についての深い探求
- 「研究者がドメイン固有の科学チャットボットを開発」
- ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した
- 「マイクロソフトの研究者が提案するMAIRA-1:胸部X線写真(CXR)から放射線報告書を生成するための放射線学専用マルチモーダルモデル」
- マイクロソフトとジョージア工科大学の研究者が、ヘッドウォーンデバイスを使用した多様な舌ジェスチャー認識技術「TongueTap」を紹介しました
- 「UCバークレーの研究者が開発したALIA:微細分類タスクのための自動言語ガイド画像拡張の画期的なブレイクスルー」
- UCバークレーの研究者たちは、「RLIF」という強化学習方法を導入しましたこの方法は、対話型の模倣学習に非常に近い環境での介入から学ぶものです