テンセントAIラボの研究者たちは、テキスト対応の画像プロンプトアダプタ「IP-Adapter」を開発しました:テキストから画像への拡散モデルのためのアダプタです

Tencent AI Lab researchers developed the IP-Adapter, a text-to-image diffusion model adapter.

「リンゴ」と言えば、あなたの頭にすぐにリンゴのイメージが浮かびます。私たちの脳の働き方が魅力的であるように、生成AIも同じレベルの創造性とパワーをもたらし、機械が私たちがオリジナルコンテンツと呼ぶものを作り出すことができるようになりました。最近では、非常にリアルな画像を作成するテキストから画像へのモデルが登場しています。モデルに「リンゴ」とフィードすると、さまざまな種類のリンゴの画像を得ることができます。

しかし、これらのモデルがテキストのプロンプトだけで正確に私たちが望むものを生成することは非常に困難です。通常、適切なプロンプトの慎重な作成を必要とします。これを行う別の方法は、画像のプロンプトを利用することです。現在の既存のモデルから直接的にモデルを洗練するための技術は成功していますが、大量の計算能力を必要とし、異なる基礎モデル、テキストプロンプト、構造の調整との互換性が欠けています。

制御可能な画像生成の最近の進歩は、テキストから画像への拡散モデルのクロスアテンションモジュールに関する懸念を浮き彫りにしています。これらのモジュールは、事前学習済みの拡散モデルのクロスアテンションレイヤーでキーと値のデータを射影するために調整されたウェイトを使用し、主にテキストの特徴に最適化されています。そのため、このレイヤーで画像とテキストの特徴を統合すると、画像の特異な詳細が無視される可能性があり、参照画像を利用する際に生成中の広範な制御(たとえば、画像のスタイルの管理)につながることがあります。

上記の画像では、右側の例は画像のバリエーション、マルチモーダル生成、および画像プロンプトによる埋め込みの結果を示しており、左側の例は画像プロンプトと追加の構造条件による制御可能な生成の結果を示しています。

研究者たちは、現在の方法によって引き起こされる課題に対処するために、効果的な画像プロンプトアダプターであるIP-Adapterを導入しました。IP-Adapterは、テキストと画像の特徴を処理するための別個のアプローチを使用します。拡散モデルのUNetに、画像の特徴に特化した追加のクロスアテンションレイヤーを追加しました。トレーニング中、新しいクロスアテンションレイヤーの設定を調整し、元のUNetモデルを変更せずに残します。このアダプターは効率的でありながら強力です。たった2200万のパラメーターでも、IPアダプターはテキストから画像への拡散モデルから派生した完全に微調整された画像プロンプトモデルと同じくらい良い画像を生成することができます。

その研究結果は、IP-Adapterが再利用可能かつ柔軟であることを証明しています。ベースの拡散モデルでトレーニングされたIP-Adapterは、同じベースの拡散モデルから微調整された他のカスタムモデルに一般化することができます。さらに、IP-AdapterはControlNetなどの他の制御アダプターとも互換性があり、画像プロンプトと構造制御の容易な組み合わせが可能です。別個のクロスアテンション戦略のおかげで、画像プロンプトはテキストプロンプトと並行して動作し、マルチモーダルな画像を作成します。

上記の画像は、IP-Adapterを他の方法と比較した場合の異なる構造条件を示しています。IP-Adapterの効果的な性能にもかかわらず、それはコンテンツとスタイルで参照画像に似た画像しか生成できません。言い換えれば、テキスト逆転やドリームブースなどの既存の方法のように、与えられた画像の主題と非常に一致した画像を合成することはできません。将来的には、研究者は一貫性を高めるために、より強力な画像プロンプトアダプターを開発することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

DevOpsGPTとは、LLMとDevOpsツールを組み合わせたマルチエージェントシステムであり、自然言語の要件を動作するソフトウェアに変換するものです

DevOpsGPTは、大規模な言語モデル(LLM)とDevOpsツールを組み合わせて、ソフトウェア開発のためのAIによる自動化ソリューシ...

データサイエンス

GOAT-7B-Communityモデルをご紹介します:GoatChatアプリから収集されたデータセットでLLaMA-2 7Bモデルを微調整したAIモデルです

最近、AI研究所の科学者たちは、GoatChatアプリのデータを使用して、LLaMA-2 7Bモデルを洗練させたGOAT-7B-Communityモデルを...

機械学習

「リリに会ってください:マッキンゼーの内部生成AIツール、洞察力を解き放ち、コンサルティングの効率を向上させる」

効率的かつ効果的な知識伝達の追求は、コンサルティングの世界で長年続いてきた課題です。コンサルティング業界の先駆者であ...

AIニュース

「エンジニアは失敗を見つける使命に就いています」

マサチューセッツ工科大学の研究者たちによって開発されたアルゴリズムは、現実世界への展開前にシミュレーションされた自律...

AI研究

ペンシルバニア大学の研究者が、軽量で柔軟、モデルに依存しないオープンソースのAIフレームワーク「Kani」を導入し、言語モデルアプリケーションの構築を行います

大規模言語モデルの応用は人気が高まっています。その驚異的な能力により、ますます洗練されてきています。ツールの使用追跡...

データサイエンス

「マインドのための宇宙船」:フロリダ大学がマラコフスキーホールを開設、AIおよびデータサイエンスのエピセンターに

人工知能(AI)と学界の融合を具現化するため、フロリダ大学は金曜日にデータサイエンス&情報技術のマラチョウスキーホール...