SalesForce AI 研究 BannerGen マルチモダリティ バナー生成のためのオープンソース ライブラリ

SalesForce AI研究によるBannerGenのマルチモダリティバナー生成のためのオープンソースライブラリ

効果的なグラフィックデザインは成功したマーケティングキャンペーンの基盤です。それはデザイナーと視聴者の間のコミュニケーション橋渡しを行い、ユーザーを魅了し、重要な詳細を強調し、キャンペーンの視覚的な外観を向上させます。しかし、現在の方法は時間のかかるものであり、層ごとの組み立て作業が必要です。これには専門知識が必要であり、スケーラブルにはなりません。

上記の問題を解決するために、Salesforceの研究者は、生成型AIの力を活用してデザインプロセスを効率化するオープンソースのライブラリBannerGenを導入しました。このライブラリには、3つの並列マルチモーダルバナージェネレーションメソッド、LayoutDETRLayoutInstructPix2Pix、およびFramed Template RetrieveAdapterが含まれます。それぞれが大量のデザイングラフィックデータでトレーニングを受けており、デザインプロセスを迅速化できます。さらに、これらすべてがBannerGenのGitHubリポジトリでオープンソース化されており、Pythonモジュールとしてインポートできるため、開発者は各メソッドで実験することが容易です。BannerGenには、ライセンスされたフォントと注意深く作成されたテンプレートもあり、開発者は高品質のデザインを構築することができます。

ユーザーはバナーを作成したい画像をアップロードすることができます。その画像は、主要な要素に焦点を当てて複数のサブイメージにクロッピングされます。ユーザーはまた、希望するバナーのタイプと含めたいテキストを指定することもできます。サブイメージは選択したテンプレートに統合され、見事なビジュアルが作成されます。最終的なデザインはHTMLファイルとPNGファイルとして生成されます。

研究者はVAEGANフレームワークを取り入れて、生成されたデザインを現実のパターンに合わせるようにしました。DETRアーキテクチャもBannerGenに組み込まれ、LayoutDETRとして言及されています。研究者はDETRデコーダを変更して、マルチモーダルの前景入力を処理できるようにしました。このアーキテクチャにより、BannerGenは背景と前景要素をより良く理解することができ、より良い結果を生み出します。

BannerGenは、拡散モデルによって強化された画像から画像への編集技術であるInstructPix2Pixも組み込んでいます。それは背景画像をテキストが重ねられた画像に変換するように微調整されています。

3番目のメソッドであるFramed Template RetrieveAdapterは、生成されたデザインの多様性を向上させるために使用され、3つのコンポーネントで構成されています。メトリクスに基づいて最適なフレームを見つけるリトリーバー、フレームに適合するように入力画像とテキストをカスタマイズするアダプター、背景レイヤーとユーザーの入力を統合してHTML/CSSでデザインを生成するレンダラーです。

まとめると、BannerGenは生成型AIを活用してユーザーがシームレスにカスタマイズされたバナーを作成できる強力で多機能なフレームワークです。BannerGenのアーキテクチャは実際のレイアウトから学ぶように設計されており、背景と前景要素を理解することができます。最終的なデザインはHTMLファイルとPNGファイルとして生成され、手動で簡単に調整することができ、すぐに使用できるように任意のメディアに埋め込むことができます。BannerGenはグラフィックデザインのプロセスを時間のかかるものから解放し、ユーザーが高品質でプロフェッショナルなデザインを生成するのを支援します。

この記事はSalesForce AI Research BannerGen: An Open-Source Library for Multi-Modality Banner GenerationMarkTechPostに最初に掲載されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

パーソナライズされたAIの簡単な作成方法:GPTの適応に向けたノーコードガイド

OpenAIは、カスタムChatGPTを作成するためのコード不要のアプローチで個人のAIカスタマイズを革新しています

AI研究

このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します

LLMの推論能力は優れていますが、それらの能力を実践的な状況で適用するためには改善が必要です。特に、外部の世界との最小限...

人工知能

『協力の力:オープンソースプロジェクトがAIを進化させる方法』

この記事では、オープンソースプロジェクトが革新的なAIソリューションの創造に与える深い影響について探求します

機械学習

2023年9月にチェックすべき40以上のクールなAIツール

DeepSwap DeepSwapは、説得力のあるディープフェイク動画や画像を作成したい人向けのAIベースのツールです。ビデオ、画像、ミ...

データサイエンス

デジタルネイティブ(クラウドで生まれた人々)のデータストリーミングの現状

クラウドに生まれたデジタルネイティブを探索し、イノベーションと新しいビジネスモデルにApache Kafkaを活用し、トレンド、...

機械学習

人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて

研究者は、ChatGPTの形態能力を厳密に評価し、英語、ドイツ語、タミル語、トルコ語の4つの言語で比較します。ChatGPTは専門シ...