『私をすばやく中心に置いてください:主題拡散は、オープンドメインのパーソナライズされたテキストから画像生成を実現できるAIモデルです』

主題拡散は、テキストから画像生成するAIモデルです

テキストから画像へのモデルは、過去1年間のAIの議論の中心でした。この分野の進歩は非常に迅速に起こり、その結果、印象的なテキストから画像へのモデルが存在します。生成型AIは新しいフェーズに入っています。

拡散モデルはこの進歩の主要な貢献者でした。これらのモデルは強力な生成モデルの一部として登場しました。これらのモデルは、望ましい画像にゆっくりとノイズを除去することによって高品質の画像を生成するよう設計されています。拡散モデルは隠れたデータパターンを捉え、多様で現実的なサンプルを生成することができます。

拡散ベースの生成モデルの急速な進歩は、テキストから画像の生成方法を革新しました。思いつくものは何でも画像として要求でき、モデルは非常に正確にそれを生成することができます。さらに進歩が進むにつれて、AIによって生成された画像がどれであるかを理解するのが難しくなってきています。

しかし、ここには問題があります。これらのモデルは画像を生成するためにテキストの説明にのみ頼っています。あなたは見たいものを「説明」することしかできません。さらに、ほとんどの場合、それを個人化することは容易ではありません。

自分の家のインテリアデザインを行い、建築家と協力すると想像してみてください。建築家は以前のクライアントのために作成したデザインしか提供できず、デザインの一部を個人化しようとしても無視され、別の使用済みのスタイルが提供されるだけです。とても満足できるとは言えませんね。これが個人化を求める場合、テキストから画像へのモデルで得られる体験になるかもしれません。

幸いなことに、これらの制限を克服する試みが行われています。研究者は、テキストの説明と参照画像を統合してより個人化された画像生成を実現する方法を探求しました。一部の方法では、特定の参照画像での微調整が必要ですが、他の方法では個人化したデータセットでベースモデルを再学習することにより、忠実度と汎化性能に潜在的な欠点が生じます。さらに、既存のアルゴリズムのほとんどは特定のドメインに特化しており、マルチコンセプトの生成、テスト時の微調整、およびオープンドメインのゼロショット能力の処理には手が届きません。

そこで、今日は私たちがオープンドメインの個人化に一歩近づいた新しいアプローチについて紹介します。それがSubject-Diffusionです。

SubjectDiffusionは高品質な主題駆動型画像を生成することができます。出典: https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusionは革新的なオープンドメインの個人化テキストから画像への生成フレームワークです。1つの参照画像のみを使用し、テスト時の微調整の必要性を排除しています。個人化画像生成のための大規模なデータセットを構築するために、自動データラベリングツールを活用し、76百万枚の画像と22億2200万のエンティティを備えたSubject-Diffusionデータセット(SDD)が作成されました。

Subject-Diffusionには、3つの主要なコンポーネントがあります:位置制御、細かい参照画像制御、および注目制御です。位置制御では、ノイズ注入プロセス中に主要な主題のマスク画像を追加します。細かい参照画像制御では、テキストと画像の情報を組み合わせたモジュールを使用して、両方の細かさの統合を改善します。複数の主題のスムーズな生成を可能にするために、トレーニング中に注目制御が導入されます。

SubjectDiffusionの概要。出典: https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusionは高い忠実度と汎化性能を実現し、1つの参照画像ごとに形状、姿勢、背景、スタイルの変更を加えた単一の主題、複数の主題、人物主体の個人化画像を生成することができます。また、特別に設計されたノイズ除去プロセスを介して、カスタマイズされた画像とテキストの説明との間のスムーズな補間を可能にします。定量的な比較によれば、Subject-Diffusionはさまざまなベンチマークデータセットで、テスト時の微調整あり・なしの他の最先端手法と比較して優れた性能を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...

機械学習

ウェイト、バイアス、ロスのアンボクシング:ディープラーニングに集中する

ディープラーニングは、大量のデータを自動的に利用して、コンピュータが人間と同様に学ぶために層状のニューラルネットワー...

人工知能

「EU AI法案:AIの未来における有望な一歩か、危険なギャンブルか?」

「EU AI法案は、AIに関する最初の国際的な規制法ですそれは、AIシステムの倫理的かつ安全な開発を確保すると同時に、イノベー...

機械学習

「Underrepresented Groupsの存在下での学習について」

「ICML 2023で受け入れられた最新の成果をご紹介いたします『Change is Hard A Closer Look at Subpopulation Shift』という...

データサイエンス

「機械学習におけるデータの重要性:AI革命の推進力」

マシンラーニングの進歩やAI革命を促進する上でデータの重要な役割を探求し、その意義を明らかにします

人工知能

「6週間でCassandraにベクトル検索を追加するのにAIがどのように役立ったのか」

「DataStaxは、この基礎となるAI機能を追加するために迅速に動かなければなりませんでしたChatGPT、Copilot、および他のAIツ...