ドリームブースと出会う:主体駆動型テキストから画像生成のためのAI技術

ドリームブースと出会う:AI技術による画像生成のためのテキスト主導

四足の友達が外で遊んでいる様子を想像してみてください。または、貴重なショールームで車が展示されている様子を想像してみてください。これらの架空のシナリオを作成するのは特に困難であり、特定の主題(オブジェクトや動物など)のインスタンスを新しいコンテキストで組み合わせる必要があります。

最近開発された大規模なテキストから画像へのモデルは、自然言語の説明に基づいて高品質で多様な画像を生成するという驚くべき能力を示しています。このようなモデルの主な利点の1つは、膨大な画像キャプションのコレクションから獲得した堅牢な意味理解を活用できる能力にあります。この意味的な事前知識により、モデルは「犬」といった言葉を、さまざまな犬の表現と関連付けることができます。これには、画像内のさまざまなポーズや文脈の変化を考慮する必要があります。これらのモデルは合成において優れていますが、与えられた基準セットから被写体の外観を忠実に再現することはできず、異なる文脈でこれらの被写体の新しい解釈を生成することもできません。これは、出力ドメインの制約によるものです。そのため、オブジェクトの詳細なテキストの説明でも、異なる外観のインスタンスが生成される可能性があります。これは、あなたがこのようなものを探している場合には望ましくありません。

嬉しいニュースは、最近、「テキストから画像への拡散モデル」の「パーソナライズ」を可能にする新しいAIアプローチが導入されたことです。これにより、生成モデルを個々のユーザーの固有の画像生成要件に合わせる新しい方法が実現されます。目標は、モデルの言語-ビジョン辞書を拡張して、新しい単語とユーザーが生成しようとする特定の被写体との関連付けを確立することです。

拡張された辞書がモデルに統合されると、ユニークな識別子とともに、被写体セットの新しい写真のようなイメージを合成する能力を獲得します。このプロセスは「マジックフォトブース」として考えることができます。それは、いくつかの被写体画像がキャプチャされ、その後、簡単で直感的なテキストプロンプトによってガイドされて、さまざまな条件とシーンで被写体の写真を生成します。DreamBoothのアーキテクチャは、以下の図に示されています。

https://arxiv.org/abs/2208.12242

形式的には、目標は、少数(約3〜5)の被写体画像が与えられた場合に、モデルの出力ドメインに被写体を埋め込み、ユニークな識別子と共にその合成を可能にすることです。これを実現するために、DreamBoothは珍しいトークン識別子を使用して被写体を表し、事前に学習された拡散ベースのテキストから画像へのフレームワークを微調整します。

テキストから画像へのモデルは、入力画像とテキストプロンプトを使用して微調整されます。テキストプロンプトには、ユニークな識別子の後に被写体のクラス名(例:「A [V] dog」)が含まれています。このアプローチにより、モデルは被写体クラスに関する先行知識を利用しながら、クラス固有のインスタンスをユニークな識別子と関連付けることができます。クラス固有の事前保存損失が提案されており、これは言語の変化を防ぎます。言語の変化は、モデルがクラス名(例:「dog」)を特定のインスタンスと誤って関連付ける可能性があるためです。この損失は、モデル内のクラスの埋め込みされた意味的先行知識を活用し、同じクラスの多様なインスタンスの生成を促進します。

提案された手法は、被写体の再コンテキスト化、プロパティの変更、オリジナルアートのレンダリングなど、さまざまなテキストベースの画像生成タスクに適用されます。これらのアプリケーションは、以前は困難だったタスクに新しい可能性を開くものです。

再コンテキスト化タスクのいくつかの出力例を以下に示します。それぞれの例には、それを達成するためのテキストプロンプトが付いています。

https://arxiv.org/abs/2208.12242

これはDreamBoothの概要であり、主体駆動型テキストから画像を生成するための新しいAI技術です。興味があり、この研究についてさらに詳しく知りたい場合は、以下のリンクをクリックして詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

ChatGPTのコードインタプリター:知っておくべきすべてのこと

OpenAIは、興奮をもって発表を行っており、最新の発表はChatGPT Plusのユーザーを喜ばせることでしょう。数ヶ月の期待を経て...

AIニュース

「アルトマンのスティーブ・ジョブズモーメントとしてのOpenAIのCEO」

数日前、愛好家や専門家たちはOpenAIのDevDay、GPT-5、そしてMicrosoftとの資金提携について議論しました。人工知能の未来は...

機械学習

「機械学習手法を用いたJava静的解析ツールレポートのトリアージに関する研究」

この研究では、最新の機械学習技術を利用して、Java静的解析ツールからの効果的な発見の選別について詳しく探求しています

機械学習

「MosaicMLは、AIユーザーが精度を向上し、コストを削減し、時間を節約するのを支援します」

スタートアップのMosaicMLは、大規模なAIモデルの簡単なトレーニングと展開のためのツールを提供することにより、AIコミュニ...

AI研究

「サム・アルトマンがマイクロソフトでAI研究を主導する」

テック界を騒がせた戦略的な動きの中で、MicrosoftのCEOであるサティア・ナデラは、OpenAIの共同創設者であるサム・オルトマ...

人工知能

ChatGPTのドロップシッピング用プロンプト

利益を生むeコマースビジネスを開始するには、完全なチームが必要でしたそれがChatGPTが現れるまでのことでした