コンセプトスライダー:LoRAアダプタを使用した拡散モデルの正確な制御

コンセプトスライダー:LoRAアダプタを活用した拡散モデルの精密な制御

彼らの能力のおかげで、テキストから画像への拡散モデルは芸術コミュニティで非常に人気があります。しかし、現在のモデルは、最新のフレームワークを含む、生成された画像の視覚的な概念と属性を制御することに苦労することがよくあり、満足のいく結果が得られません。ほとんどのモデルはテキストのプロンプトにのみ頼っており、天候の強度、影の鮮明さ、表情、年齢などの連続的な属性を正確に変調することに課題があります。これにより、エンドユーザーが画像を特定のニーズに合わせて調整することが困難になります。さらに、これらの生成フレームワークは高品質でリアルな画像を生成しますが、顔の歪みや指のない状態などの歪みが生じる可能性があります。

これらの制限を克服するために、開発者は解釈可能なコンセプトスライダーの使用を提案しています。これらのスライダーは、拡散モデル内での画像生成および編集を向上させるために、エンドユーザーが視覚的な属性をより細かく制御できると約束しています。拡散モデル内のコンセプトスライダーは、個々の概念に対応するパラメータ方向を識別し、他の属性との干渉を最小限に抑えることで機能します。フレームワークは、サンプル画像またはプロンプトのセットを使用してこれらのスライダーを作成し、テキストとビジュアルの両方のコンセプトの方向性を確立します。

結果として、テキストから画像への拡散モデルでのコンセプトスライダーの使用は、最小限の干渉度での画像生成と最終出力の高度な制御、および画像の内容を変更せずに知覚されるリアリズムの向上をもたらすことができます。この記事では、テキストから画像へのフレームワークでのコンセプトスライダーの使用について詳しく説明し、その使用が優れた品質のAI生成画像をもたらす方法について分析します。

コンセプトスライダーの紹介

先述のように、現在のテキストから画像への拡散フレームワークは、生成された画像の視覚的な概念と属性を制御することがよくあり、満足のいく結果が得られません。さらに、これらのモデルの多くは、連続的な属性を変調することが困難であり、結果として満足のいく結果が得られません。コンセプトスライダーは、これらの問題を緩和し、現行のフレームワークに直面する課題に対処することを支援することができます。

ほとんどの現在のテキストから画像への拡散モデルは、画像属性を制御するために直接テキストプロンプトの変更を頼ります。このアプローチは画像生成を可能にしますが、プロンプトを変更することで画像の構造が大幅に変わるため、最適ではありません。これらのフレームワークが使用する別のアプローチでは、事後技術を使用して拡散プロセスを反転させ、クロスアテンションを変更して視覚的な概念を編集します。ただし、事後技術には制限があり、同時編集ができるのは限られた数だけであり、各新しい概念に対して個別の干渉パスが必要です。また、注意深く設計されていない場合、概念的な絡み合いを引き起こすこともあります。

それに対して、コンセプトスライダーは、より効率的な画像生成の解決策を提供します。これらの軽量で使いやすいアダプターは、事前学習済みモデルに適用することができ、1度の干渉パスで目的の概念を最小限の絡み合いで制御し、精度を向上させることができます。コンセプトスライダーはまた、テキストによる説明ではカバーされていない視覚的な概念の編集を可能にし、これはテキストプロンプトベースの編集方法とは異なる特徴です。画像ベースのカスタマイズ方法は画像ベースの概念にトークンを効果的に追加できますが、画像の編集には難しいです。一方、コンセプトスライダーは、エンドユーザーが所望の概念を定義するための少数の対応画像を提供することを可能にします。スライダーはこの概念を一般化し、自動的に他の画像に適用し、リアリズムを向上させ、手の形などの歪みを修正することを目指します。

コンセプトスライダーは、四つの生成AIおよび拡散フレームワークのコンセプトで共通の問題を学び、対処しようとします:画像編集、ガイダンスベースの手法、モデル編集、および意味的な方向性。

画像編集

現在のAIフレームワークは、条件付きの入力を使用して画像の構造をガイドするか、ソース画像のクロスアテンションを変更してテキストから画像への拡散フレームワークでの単一画像編集を可能にすることに焦点を当てています。その結果、これらのアプローチは単一の画像にのみ適用することができ、プロンプト間での時間ステップごとの幾何学的構造の進化の結果として、すべての画像に対して潜在的な基礎最適化が必要です。

ガイダンスベースの手法

クラシファイアーフリーのガイダンスベースの手法の使用は、生成された画像の品質を向上させ、テキストと画像の整合性を高める能力を示しています。干渉中にガイダンス項を組み込むことにより、この手法は拡散フレームワークに継承された限られた組成性を改善し、危険な概念を拡散フレームワークでガイドするために使用することができます。

モデル編集

コンセプトスライダーの使用は、連続的な制御を可能にし、属性に合う連続的な制御を行うための単一の意味属性を出力するために低ランクアダプタを使用するモデル編集の技術としても見ることができます。また、ファインチューニングベースのカスタマイズ手法を使用してフレームワークを個別化し、新しいコンセプトを追加するための手段としても利用されます。さらに、カスタムディフュージョン技術では、クロスアテンションレイヤーを微調整して事前学習されたディフュージョンモデルに新しい視覚的なコンセプトを取り入れる方法が提案されます。逆に、テキストディフュージョン技術では、埋め込みベクトルを最適化してモデルの能力を活性化し、フレームワークにテキストのコンセプトを導入する方法が提案されます。

GANsにおける意味的な方向

意味属性の操作は、生成的対抗ネットワークの主要な属性の一つであり、潜在空間の軌跡は自己教師ありの方法で整列していることがわかっています。ディフュージョンフレームワークでは、これらの潜在空間の軌跡はU-Netアーキテクチャの中間層に存在し、ディフュージョンフレームワークの主要な方向はグローバルな意味を捉えています。コンセプトスライダーは、特定の属性に対応する低ランク部分空間を直接訓練し、テキストまたは画像のペアを使用してグローバルな方向を最適化することにより、正確で局所化された編集方向を得ます。

コンセプトスライダー:アーキテクチャと動作

ディフュージョンモデルとLoRAまたは低ランクアダプタ

ディフュージョンモデルは、一連のデータ合成プロセスを逆転させることによってデータを合成する生成AIフレームワークのサブクラスです。順方向のディフュージョンプロセスでは、最初にデータにノイズが加わり、整理された状態から完全なガウスノイズ状態への遷移が行われます。ディフュージョンモデルの主な目的は、画像のノイズを段階的に除去し、ランダムなガウシアンノイズをサンプリングして画像を生成することでディフュージョンプロセスを逆転させることです。実世界のアプリケーションでは、ディフュージョンフレームワークの主な目的は、条件付き入力に完全なガウシアンノイズが与えられたときに、条件付き入力やタイムステップのような追加の入力を使用して真のノイズを予測することです。

LoRAまたはLow Rank Adaptors技術は、ファインチューニング中の重み更新を分解して、大規模な事前学習済みフレームワークを効率的に適応させることを可能にします。LoRA技術は、事前学習モデルの層ごとの重み更新を、入力次元と出力次元の両方に対して低次元の部分空間に制約を課すことによって分解します。

コンセプトスライダー

コンセプトスライダーの主な目的は、ディフュージョンフレームワーク上のLoRAアダプタをファインチューニングすることで、コンセプトに対象を絞った画像に対するより高度な制御を実現することです。以下の画像で示されているように。

ターゲットコンセプトに基づいて条件付けられた場合、コンセプトスライダーは特定の属性の表現を増加または減少させるための低ランクパラメータ方向を学習します。モデルとそのターゲットコンセプトに対して、コンセプトスライダーの主な目標は、ターゲットコンセプトに条件付けられた画像の属性の増加の可能性を高め、属性の抑制の可能性を低下させるための改良モデルを得ることです。再パラメータ化とTweedieの公式を使用して、フレームワークは時間変動ノイズプロセスを導入し、各スコアをノイズ除去予測として表現します。さらに、ディセンタングルメント目標では、事前学習された重みを一定のままにしながら、コンセプトスライダー内のモジュールを微調整し、LoRAの定式化時に導入されたスケーリング係数は干渉中に修正されます。スケーリング係数は、編集の強さを調整し、フレームワークを再トレーニングすることなく編集を強化するのにも役立ちます。以下の画像で示されているように。

以前のフレームワークで使用されていた編集方法は、フレームワークを再トレーニングすることによって強力な編集を可能にしました。しかし、干渉時にスケーリング係数をスケーリングすることで、再トレーニングコストや時間を増やすことなく、同じ編集結果を得ることができます。

ビジュアルコンセプトの学習

コンセプトスライダーは、テキストのプロンプトではうまく定義できないビジュアルコンセプトを制御するように設計されており、これらのスライダーは、事前にペアリングされた小さなデータセットを活用してこれらのコンセプトに対して訓練します。画像ペアの対比により、スライダーはビジュアルコンセプトを学習します。さらに、コンセプトスライダーのトレーニングプロセスは、前方および逆方向の両方に実装されたLoRAコンポーネントを最適化します。その結果、LoRAコンポーネントは、両方の方向で視覚効果を引き起こす方向に一致します。

コンセプト スライダーの実装結果

パフォーマンス向上の分析のために、開発者は主にStable Diffusion XLでのコンセプトスライダーの使用を評価してきました。Stable Diffusion v1.4においても、トレーニングされたモデルごとに500エポック実施された追加の実験が行われました。

テキストベースのコンセプトスライダー

テキストベースのコンセプトスライダーの性能評価によって、30個のテキストベースのコンセプトセットでの検証が行われ、この手法は固定されたステップ数の標準的なテキストプロンプトを使用した2つのベースラインと比較されます。次の図で確認できるように、コンセプトスライダーの使用により、CLIPスコアが常に高く、LPIPSスコアが低下することが示されています。

上記の写真で確認できるように、コンセプトスライダーの使用により、画像生成プロセス中に望ましい属性の正確な編集が容易になり、画像の全体的な構造を維持することができます。

ビジュアルコンセプトスライダー

テキストプロンプトのみを使用するイメージ生成モデルでは、顔の毛や目の形などのビジュアル属性をうまく制御するのが困難です。より細かい属性の制御を確保するために、コンセプトスライダーではテキストのガイダンスと画像データセットを組み合わせています。以下の図からも分かる通り、コンセプトスライダーは「目のサイズ」と「眉の形」に対する個別のスライダーを作成し、画像ペアを使用して望ましい変換を捉えることができます。

特定のテキストを提供することで、方向がその顔の領域にフォーカスし、対象の属性に対するステップごとの制御を持つスライダーを作成することもできます。

コンポジングスライダー

コンセプトスライダーの主な利点の1つは、組み合わせ可能性であり、単一のコンセプトに焦点を絞るのではなく、複数のスライダーを組み合わせてより高度な制御を可能にします。また、コンセプトスライダーは軽量なLoRAアダプターであるため、簡単に共有でき、拡散モデルにも簡単にオーバーレイすることができます。ユーザーは興味深いスライダーセットをダウンロードして複数のノブを同時に調整することで複雑な生成を制御することもできます。

以下の画像は、コンセプトスライダーの組み合わせ機能を示しており、複数のスライダーが左から右に進んで逐次的に組み合わされています。これにより、コンセプトの高次元空間をトラバースしながらより高度な制御を可能にします。

画像品質の向上

最新のテキストから画像への拡散フレームワークや大規模な生成モデル(Stable Diffusion XLモデルなど)は、リアルかつ高品質な画像を生成することが可能ですが、これらのフレームワークのパラメータは高品質な出力を生成するための潜在的な能力を備えているにもかかわらず、ぼやけたり歪んだオブジェクトなどの画像の歪みが発生することがあります。コンセプトスライダーの使用により、低ランクのパラメータの方向を特定することで、より少ない歪みを持つ画像を生成することができます。

手の修正

現実的な手のイメージを生成することは、拡散フレームワークにとって常に課題となっており、Concept Slidersの使用により、直接的に手の歪みを制御することが可能になります。以下のイメージは、「fix hands」Concept Slidersの使用により、より現実的に見える手を生成するフレームワークの効果を示しています。

修正スライダー

Concept Slidersの使用により、現実的に見える手の生成だけでなく、フレームワークによって生成されるイメージの全体的なリアリティの向上の可能性も示されています。Concept Slidersは、一般的な歪みの問題からイメージをシフトさせるための単一の低ランクパラメータ方向を特定することもできます。その結果は、以下のイメージで示されています。

最終的な考え

この記事では、ディフュージョンモデルにおいて生成された出力に対して解釈可能な制御を実現するための、シンプルかつスケーラブルな新しいパラダイムであるConcept Slidersについて話しました。Concept Slidersの使用は、現在のテキストから画像へのディフュージョンフレームワークが直面する問題を解決し、生成されるイメージに含まれる視覚的な概念や属性に対して必要な制御を維持することが難しい場合によくある不満足な出力につながることを解消することを目指しています。さらに、ほとんどのテキストから画像へのディフュージョンモデルは、連続した属性をイメージに調整することが難しいため、しばしば満足のいく出力が得られません。Concept Slidersの使用により、テキストから画像へのディフュージョンフレームワークはこれらの問題を緩和し、コンテンツクリエーターやエンドユーザーが画像生成プロセスをより高度に制御することができるようになり、現在のフレームワークが直面する問題を解決するかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ファイデムのチーフ・プロダクト・オフィサー、アルパー・テキン-インタビューシリーズ

アルパー・テキンは、FindemというAI人材の獲得と管理プラットフォームの最高製品責任者(CPO)ですFindemのTalent Data Clou...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

人工知能

「マーシャンの共同創設者であるイータン・ギンスバーグについてのインタビューシリーズ」

エタン・ギンズバーグは、マーシャンの共同創業者であり、すべてのプロンプトを最適なLLMに動的にルーティングするプラットフ...