ドリームブースと出会う:主体駆動型テキストから画像生成のためのAI技術
ドリームブースと出会う:AI技術による画像生成のためのテキスト主導
四足の友達が外で遊んでいる様子を想像してみてください。または、貴重なショールームで車が展示されている様子を想像してみてください。これらの架空のシナリオを作成するのは特に困難であり、特定の主題(オブジェクトや動物など)のインスタンスを新しいコンテキストで組み合わせる必要があります。
最近開発された大規模なテキストから画像へのモデルは、自然言語の説明に基づいて高品質で多様な画像を生成するという驚くべき能力を示しています。このようなモデルの主な利点の1つは、膨大な画像キャプションのコレクションから獲得した堅牢な意味理解を活用できる能力にあります。この意味的な事前知識により、モデルは「犬」といった言葉を、さまざまな犬の表現と関連付けることができます。これには、画像内のさまざまなポーズや文脈の変化を考慮する必要があります。これらのモデルは合成において優れていますが、与えられた基準セットから被写体の外観を忠実に再現することはできず、異なる文脈でこれらの被写体の新しい解釈を生成することもできません。これは、出力ドメインの制約によるものです。そのため、オブジェクトの詳細なテキストの説明でも、異なる外観のインスタンスが生成される可能性があります。これは、あなたがこのようなものを探している場合には望ましくありません。
嬉しいニュースは、最近、「テキストから画像への拡散モデル」の「パーソナライズ」を可能にする新しいAIアプローチが導入されたことです。これにより、生成モデルを個々のユーザーの固有の画像生成要件に合わせる新しい方法が実現されます。目標は、モデルの言語-ビジョン辞書を拡張して、新しい単語とユーザーが生成しようとする特定の被写体との関連付けを確立することです。
拡張された辞書がモデルに統合されると、ユニークな識別子とともに、被写体セットの新しい写真のようなイメージを合成する能力を獲得します。このプロセスは「マジックフォトブース」として考えることができます。それは、いくつかの被写体画像がキャプチャされ、その後、簡単で直感的なテキストプロンプトによってガイドされて、さまざまな条件とシーンで被写体の写真を生成します。DreamBoothのアーキテクチャは、以下の図に示されています。
形式的には、目標は、少数(約3〜5)の被写体画像が与えられた場合に、モデルの出力ドメインに被写体を埋め込み、ユニークな識別子と共にその合成を可能にすることです。これを実現するために、DreamBoothは珍しいトークン識別子を使用して被写体を表し、事前に学習された拡散ベースのテキストから画像へのフレームワークを微調整します。
テキストから画像へのモデルは、入力画像とテキストプロンプトを使用して微調整されます。テキストプロンプトには、ユニークな識別子の後に被写体のクラス名(例:「A [V] dog」)が含まれています。このアプローチにより、モデルは被写体クラスに関する先行知識を利用しながら、クラス固有のインスタンスをユニークな識別子と関連付けることができます。クラス固有の事前保存損失が提案されており、これは言語の変化を防ぎます。言語の変化は、モデルがクラス名(例:「dog」)を特定のインスタンスと誤って関連付ける可能性があるためです。この損失は、モデル内のクラスの埋め込みされた意味的先行知識を活用し、同じクラスの多様なインスタンスの生成を促進します。
提案された手法は、被写体の再コンテキスト化、プロパティの変更、オリジナルアートのレンダリングなど、さまざまなテキストベースの画像生成タスクに適用されます。これらのアプリケーションは、以前は困難だったタスクに新しい可能性を開くものです。
再コンテキスト化タスクのいくつかの出力例を以下に示します。それぞれの例には、それを達成するためのテキストプロンプトが付いています。
これはDreamBoothの概要であり、主体駆動型テキストから画像を生成するための新しいAI技術です。興味があり、この研究についてさらに詳しく知りたい場合は、以下のリンクをクリックして詳細情報を見つけることができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles