『私をすばやく中心に置いてください:主題拡散は、オープンドメインのパーソナライズされたテキストから画像生成を実現できるAIモデルです』

主題拡散は、テキストから画像生成するAIモデルです

テキストから画像へのモデルは、過去1年間のAIの議論の中心でした。この分野の進歩は非常に迅速に起こり、その結果、印象的なテキストから画像へのモデルが存在します。生成型AIは新しいフェーズに入っています。

拡散モデルはこの進歩の主要な貢献者でした。これらのモデルは強力な生成モデルの一部として登場しました。これらのモデルは、望ましい画像にゆっくりとノイズを除去することによって高品質の画像を生成するよう設計されています。拡散モデルは隠れたデータパターンを捉え、多様で現実的なサンプルを生成することができます。

拡散ベースの生成モデルの急速な進歩は、テキストから画像の生成方法を革新しました。思いつくものは何でも画像として要求でき、モデルは非常に正確にそれを生成することができます。さらに進歩が進むにつれて、AIによって生成された画像がどれであるかを理解するのが難しくなってきています。

しかし、ここには問題があります。これらのモデルは画像を生成するためにテキストの説明にのみ頼っています。あなたは見たいものを「説明」することしかできません。さらに、ほとんどの場合、それを個人化することは容易ではありません。

自分の家のインテリアデザインを行い、建築家と協力すると想像してみてください。建築家は以前のクライアントのために作成したデザインしか提供できず、デザインの一部を個人化しようとしても無視され、別の使用済みのスタイルが提供されるだけです。とても満足できるとは言えませんね。これが個人化を求める場合、テキストから画像へのモデルで得られる体験になるかもしれません。

幸いなことに、これらの制限を克服する試みが行われています。研究者は、テキストの説明と参照画像を統合してより個人化された画像生成を実現する方法を探求しました。一部の方法では、特定の参照画像での微調整が必要ですが、他の方法では個人化したデータセットでベースモデルを再学習することにより、忠実度と汎化性能に潜在的な欠点が生じます。さらに、既存のアルゴリズムのほとんどは特定のドメインに特化しており、マルチコンセプトの生成、テスト時の微調整、およびオープンドメインのゼロショット能力の処理には手が届きません。

そこで、今日は私たちがオープンドメインの個人化に一歩近づいた新しいアプローチについて紹介します。それがSubject-Diffusionです。

SubjectDiffusionは高品質な主題駆動型画像を生成することができます。出典: https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusionは革新的なオープンドメインの個人化テキストから画像への生成フレームワークです。1つの参照画像のみを使用し、テスト時の微調整の必要性を排除しています。個人化画像生成のための大規模なデータセットを構築するために、自動データラベリングツールを活用し、76百万枚の画像と22億2200万のエンティティを備えたSubject-Diffusionデータセット(SDD)が作成されました。

Subject-Diffusionには、3つの主要なコンポーネントがあります:位置制御、細かい参照画像制御、および注目制御です。位置制御では、ノイズ注入プロセス中に主要な主題のマスク画像を追加します。細かい参照画像制御では、テキストと画像の情報を組み合わせたモジュールを使用して、両方の細かさの統合を改善します。複数の主題のスムーズな生成を可能にするために、トレーニング中に注目制御が導入されます。

SubjectDiffusionの概要。出典: https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusionは高い忠実度と汎化性能を実現し、1つの参照画像ごとに形状、姿勢、背景、スタイルの変更を加えた単一の主題、複数の主題、人物主体の個人化画像を生成することができます。また、特別に設計されたノイズ除去プロセスを介して、カスタマイズされた画像とテキストの説明との間のスムーズな補間を可能にします。定量的な比較によれば、Subject-Diffusionはさまざまなベンチマークデータセットで、テスト時の微調整あり・なしの他の最先端手法と比較して優れた性能を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

医療画像AIがより簡単になりました:NVIDIAがMONAIをホステッドクラウドサービスとして提供

本日、NVIDIAは医療画像AIのためのクラウドサービスを立ち上げました。これにより、完全に管理され、クラウドベースのAPIを通...

データサイエンス

「高度な生成型AIの探求 | 条件付きVAEs」

はじめに この記事へようこそ。ここでは、生成AIのエキサイティングな世界を探求します。主にConditional Variational Autoen...

AIニュース

「Amazon Qをご紹介します:ビジネスの卓越性のためのチャットボットをご紹介します!」

今日の速いビジネスの世界では、効果的なコミュニケーションが成功の鍵となります。AmazonはAmazon Qを導入し、データとのや...

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...

データサイエンス

「バリー・ディラー対生成AI:著作権法的な戦い」

メディアの大物であるバリー・ディラー氏と一部の著名な出版社は、人工知能(AI)システムのトレーニングで公開された作品の...

データサイエンス

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させまし...