ドリームブースと出会う:主体駆動型テキストから画像生成のためのAI技術

ドリームブースと出会う:AI技術による画像生成のためのテキスト主導

四足の友達が外で遊んでいる様子を想像してみてください。または、貴重なショールームで車が展示されている様子を想像してみてください。これらの架空のシナリオを作成するのは特に困難であり、特定の主題(オブジェクトや動物など)のインスタンスを新しいコンテキストで組み合わせる必要があります。

最近開発された大規模なテキストから画像へのモデルは、自然言語の説明に基づいて高品質で多様な画像を生成するという驚くべき能力を示しています。このようなモデルの主な利点の1つは、膨大な画像キャプションのコレクションから獲得した堅牢な意味理解を活用できる能力にあります。この意味的な事前知識により、モデルは「犬」といった言葉を、さまざまな犬の表現と関連付けることができます。これには、画像内のさまざまなポーズや文脈の変化を考慮する必要があります。これらのモデルは合成において優れていますが、与えられた基準セットから被写体の外観を忠実に再現することはできず、異なる文脈でこれらの被写体の新しい解釈を生成することもできません。これは、出力ドメインの制約によるものです。そのため、オブジェクトの詳細なテキストの説明でも、異なる外観のインスタンスが生成される可能性があります。これは、あなたがこのようなものを探している場合には望ましくありません。

嬉しいニュースは、最近、「テキストから画像への拡散モデル」の「パーソナライズ」を可能にする新しいAIアプローチが導入されたことです。これにより、生成モデルを個々のユーザーの固有の画像生成要件に合わせる新しい方法が実現されます。目標は、モデルの言語-ビジョン辞書を拡張して、新しい単語とユーザーが生成しようとする特定の被写体との関連付けを確立することです。

拡張された辞書がモデルに統合されると、ユニークな識別子とともに、被写体セットの新しい写真のようなイメージを合成する能力を獲得します。このプロセスは「マジックフォトブース」として考えることができます。それは、いくつかの被写体画像がキャプチャされ、その後、簡単で直感的なテキストプロンプトによってガイドされて、さまざまな条件とシーンで被写体の写真を生成します。DreamBoothのアーキテクチャは、以下の図に示されています。

https://arxiv.org/abs/2208.12242

形式的には、目標は、少数(約3〜5)の被写体画像が与えられた場合に、モデルの出力ドメインに被写体を埋め込み、ユニークな識別子と共にその合成を可能にすることです。これを実現するために、DreamBoothは珍しいトークン識別子を使用して被写体を表し、事前に学習された拡散ベースのテキストから画像へのフレームワークを微調整します。

テキストから画像へのモデルは、入力画像とテキストプロンプトを使用して微調整されます。テキストプロンプトには、ユニークな識別子の後に被写体のクラス名(例:「A [V] dog」)が含まれています。このアプローチにより、モデルは被写体クラスに関する先行知識を利用しながら、クラス固有のインスタンスをユニークな識別子と関連付けることができます。クラス固有の事前保存損失が提案されており、これは言語の変化を防ぎます。言語の変化は、モデルがクラス名(例:「dog」)を特定のインスタンスと誤って関連付ける可能性があるためです。この損失は、モデル内のクラスの埋め込みされた意味的先行知識を活用し、同じクラスの多様なインスタンスの生成を促進します。

提案された手法は、被写体の再コンテキスト化、プロパティの変更、オリジナルアートのレンダリングなど、さまざまなテキストベースの画像生成タスクに適用されます。これらのアプリケーションは、以前は困難だったタスクに新しい可能性を開くものです。

再コンテキスト化タスクのいくつかの出力例を以下に示します。それぞれの例には、それを達成するためのテキストプロンプトが付いています。

https://arxiv.org/abs/2208.12242

これはDreamBoothの概要であり、主体駆動型テキストから画像を生成するための新しいAI技術です。興味があり、この研究についてさらに詳しく知りたい場合は、以下のリンクをクリックして詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

希望、恐怖、そしてAI:AIツールに対する消費者の態度に関する最新の調査結果

米国の消費者が人工知能(AI)に関する意見と認識について述べた最新の「Trust Survey」の結果を明らかにしたThe Vergeの報告...

AI研究

OpenAIのChatGPTアプリがBingの統合機能を備えたブラウジング機能を導入しました

OpenAIは、AIに関する最先端の研究機関であり、彼らのAIチャットボットのプレミアムバージョンであるChatGPT Plusのサブスク...

AIニュース

ChatGPTを使用してAIエージェントを作成する

新しい「カスタムインストラクション」機能を使うことで、ChatGPTをAIエージェントに変えることができます

機械学習

「LeNetのマスタリング:アーキテクチャの洞察と実践的な実装」

はじめに LeNet-5は、1990年代にYann LeCunと彼のチームによって開発された画期的な畳み込みニューラルネットワーク(CNN)で...

AIニュース

「OpenAIはAIの安全性に対処するためにベンガルールで開発者ミートアップを計画中」

OpenAIは、AIチャットボットChatGPTの影響力のある力を持つ組織であり、2024年1月にベンガルールで開発者の集まりを開催する...

AI研究

Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデ...