ドリームブースと出会う:主体駆動型テキストから画像生成のためのAI技術

ドリームブースと出会う:AI技術による画像生成のためのテキスト主導

四足の友達が外で遊んでいる様子を想像してみてください。または、貴重なショールームで車が展示されている様子を想像してみてください。これらの架空のシナリオを作成するのは特に困難であり、特定の主題(オブジェクトや動物など)のインスタンスを新しいコンテキストで組み合わせる必要があります。

最近開発された大規模なテキストから画像へのモデルは、自然言語の説明に基づいて高品質で多様な画像を生成するという驚くべき能力を示しています。このようなモデルの主な利点の1つは、膨大な画像キャプションのコレクションから獲得した堅牢な意味理解を活用できる能力にあります。この意味的な事前知識により、モデルは「犬」といった言葉を、さまざまな犬の表現と関連付けることができます。これには、画像内のさまざまなポーズや文脈の変化を考慮する必要があります。これらのモデルは合成において優れていますが、与えられた基準セットから被写体の外観を忠実に再現することはできず、異なる文脈でこれらの被写体の新しい解釈を生成することもできません。これは、出力ドメインの制約によるものです。そのため、オブジェクトの詳細なテキストの説明でも、異なる外観のインスタンスが生成される可能性があります。これは、あなたがこのようなものを探している場合には望ましくありません。

嬉しいニュースは、最近、「テキストから画像への拡散モデル」の「パーソナライズ」を可能にする新しいAIアプローチが導入されたことです。これにより、生成モデルを個々のユーザーの固有の画像生成要件に合わせる新しい方法が実現されます。目標は、モデルの言語-ビジョン辞書を拡張して、新しい単語とユーザーが生成しようとする特定の被写体との関連付けを確立することです。

拡張された辞書がモデルに統合されると、ユニークな識別子とともに、被写体セットの新しい写真のようなイメージを合成する能力を獲得します。このプロセスは「マジックフォトブース」として考えることができます。それは、いくつかの被写体画像がキャプチャされ、その後、簡単で直感的なテキストプロンプトによってガイドされて、さまざまな条件とシーンで被写体の写真を生成します。DreamBoothのアーキテクチャは、以下の図に示されています。

https://arxiv.org/abs/2208.12242

形式的には、目標は、少数(約3〜5)の被写体画像が与えられた場合に、モデルの出力ドメインに被写体を埋め込み、ユニークな識別子と共にその合成を可能にすることです。これを実現するために、DreamBoothは珍しいトークン識別子を使用して被写体を表し、事前に学習された拡散ベースのテキストから画像へのフレームワークを微調整します。

テキストから画像へのモデルは、入力画像とテキストプロンプトを使用して微調整されます。テキストプロンプトには、ユニークな識別子の後に被写体のクラス名(例:「A [V] dog」)が含まれています。このアプローチにより、モデルは被写体クラスに関する先行知識を利用しながら、クラス固有のインスタンスをユニークな識別子と関連付けることができます。クラス固有の事前保存損失が提案されており、これは言語の変化を防ぎます。言語の変化は、モデルがクラス名(例:「dog」)を特定のインスタンスと誤って関連付ける可能性があるためです。この損失は、モデル内のクラスの埋め込みされた意味的先行知識を活用し、同じクラスの多様なインスタンスの生成を促進します。

提案された手法は、被写体の再コンテキスト化、プロパティの変更、オリジナルアートのレンダリングなど、さまざまなテキストベースの画像生成タスクに適用されます。これらのアプリケーションは、以前は困難だったタスクに新しい可能性を開くものです。

再コンテキスト化タスクのいくつかの出力例を以下に示します。それぞれの例には、それを達成するためのテキストプロンプトが付いています。

https://arxiv.org/abs/2208.12242

これはDreamBoothの概要であり、主体駆動型テキストから画像を生成するための新しいAI技術です。興味があり、この研究についてさらに詳しく知りたい場合は、以下のリンクをクリックして詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIとML開発言語としてのPythonの利点」

「AIやMLなどのツールを使用して、ウェブ開発会社が業界を征服するためにPythonがますます使用されている理由を発見してくだ...

AI研究

マイクロソフトの研究者が「LoRAShear LLMの構造的な剪定と知識の回復に対する画期的な人工知能効率的アプローチ」を紹介

LLMは大量のテキストデータを処理し、関連情報を迅速に抽出することができます。これは、検索エンジン、質問応答システム、デ...

AI研究

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施し...

データサイエンス

「ワイルドワイルドRAG…(パート1)」

「RAG(Retrieval-Augmented Generation)は、外部の知識源を取り込むことで言語モデルによって生成された応答の品質を向上さ...

データサイエンス

十年生のためのニューラルネットワークの簡略化

複雑なニューラルネットワークの概念を、コスト関数、ニューロン、バックプロパゲーション、重みとバイアスを非技術的で楽し...

データサイエンス

クラウドセキュリティの未来:トレンドと予測

この記事では、AIによる脅威検出、ゼロトラストアーキテクチャ、進化するサイバー脅威を含む、クラウドセキュリティのトレン...