ドリームブースと出会う:主体駆動型テキストから画像生成のためのAI技術

ドリームブースと出会う:AI技術による画像生成のためのテキスト主導

四足の友達が外で遊んでいる様子を想像してみてください。または、貴重なショールームで車が展示されている様子を想像してみてください。これらの架空のシナリオを作成するのは特に困難であり、特定の主題(オブジェクトや動物など)のインスタンスを新しいコンテキストで組み合わせる必要があります。

最近開発された大規模なテキストから画像へのモデルは、自然言語の説明に基づいて高品質で多様な画像を生成するという驚くべき能力を示しています。このようなモデルの主な利点の1つは、膨大な画像キャプションのコレクションから獲得した堅牢な意味理解を活用できる能力にあります。この意味的な事前知識により、モデルは「犬」といった言葉を、さまざまな犬の表現と関連付けることができます。これには、画像内のさまざまなポーズや文脈の変化を考慮する必要があります。これらのモデルは合成において優れていますが、与えられた基準セットから被写体の外観を忠実に再現することはできず、異なる文脈でこれらの被写体の新しい解釈を生成することもできません。これは、出力ドメインの制約によるものです。そのため、オブジェクトの詳細なテキストの説明でも、異なる外観のインスタンスが生成される可能性があります。これは、あなたがこのようなものを探している場合には望ましくありません。

嬉しいニュースは、最近、「テキストから画像への拡散モデル」の「パーソナライズ」を可能にする新しいAIアプローチが導入されたことです。これにより、生成モデルを個々のユーザーの固有の画像生成要件に合わせる新しい方法が実現されます。目標は、モデルの言語-ビジョン辞書を拡張して、新しい単語とユーザーが生成しようとする特定の被写体との関連付けを確立することです。

拡張された辞書がモデルに統合されると、ユニークな識別子とともに、被写体セットの新しい写真のようなイメージを合成する能力を獲得します。このプロセスは「マジックフォトブース」として考えることができます。それは、いくつかの被写体画像がキャプチャされ、その後、簡単で直感的なテキストプロンプトによってガイドされて、さまざまな条件とシーンで被写体の写真を生成します。DreamBoothのアーキテクチャは、以下の図に示されています。

https://arxiv.org/abs/2208.12242

形式的には、目標は、少数(約3〜5)の被写体画像が与えられた場合に、モデルの出力ドメインに被写体を埋め込み、ユニークな識別子と共にその合成を可能にすることです。これを実現するために、DreamBoothは珍しいトークン識別子を使用して被写体を表し、事前に学習された拡散ベースのテキストから画像へのフレームワークを微調整します。

テキストから画像へのモデルは、入力画像とテキストプロンプトを使用して微調整されます。テキストプロンプトには、ユニークな識別子の後に被写体のクラス名(例:「A [V] dog」)が含まれています。このアプローチにより、モデルは被写体クラスに関する先行知識を利用しながら、クラス固有のインスタンスをユニークな識別子と関連付けることができます。クラス固有の事前保存損失が提案されており、これは言語の変化を防ぎます。言語の変化は、モデルがクラス名(例:「dog」)を特定のインスタンスと誤って関連付ける可能性があるためです。この損失は、モデル内のクラスの埋め込みされた意味的先行知識を活用し、同じクラスの多様なインスタンスの生成を促進します。

提案された手法は、被写体の再コンテキスト化、プロパティの変更、オリジナルアートのレンダリングなど、さまざまなテキストベースの画像生成タスクに適用されます。これらのアプリケーションは、以前は困難だったタスクに新しい可能性を開くものです。

再コンテキスト化タスクのいくつかの出力例を以下に示します。それぞれの例には、それを達成するためのテキストプロンプトが付いています。

https://arxiv.org/abs/2208.12242

これはDreamBoothの概要であり、主体駆動型テキストから画像を生成するための新しいAI技術です。興味があり、この研究についてさらに詳しく知りたい場合は、以下のリンクをクリックして詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Nvidiaが革命的なAIチップを発表し、生成型AIアプリケーションを急速に強化する」

技術が常に限界を押し上げる時代において、Nvidiaは再びその名を刻みました。同社はGH200 Grace Hopper Superchipを発売しま...

人工知能

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAI...

AIニュース

「ウェブパブリッシャーコントロールの最新情報」

「私たちはGoogle-Extendedを発表しますこれは、ウェブパブリッシャーが自分たちのサイトがBardとVertex AIの生成APIを改善す...

機械学習

一緒にAIを学びましょう−Towards AIコミュニティニュースレター#5

おはようございます、AI愛好家の皆さん!今週のポッドキャストのエピソードは必聴で、これまでの24エピソードの中でも一番優...

AIニュース

ChatGPTカスタム指示の使用方法(6つのユースケース)

「カスタム指示」は、ChatGPTが応答を生成する際に考慮してほしい個人の好みや要件を追加することができます

人工知能

「信じられないほどの新しい中間補間機能(領域の変化)」

「この機能により、グラフィックデザインの経験がないがグラフィックを作成したいという人にとって、Midjourneyは100倍も価値...