「T2I-Adapter-SDXL:小型で効率的な制御モデルに出会ってください」

T2I-Adapter-SDXL Meet a small and efficient control model.

T2I-アダプタは、完全な再学習を必要とせずにテキストから画像へのモデルを強化するプラグアンドプレイツールであり、ControlNetなどの代替手法よりも効率的です。内部の知識を外部の信号と整合させ、正確な画像編集を行います。ControlNetとは異なり、T2I-アダプタはノイズ除去プロセス中に一度だけ実行されるため、画像の生成を遅くすることなく、より速く効率的な解決策を提供します。

モデルのパラメータとストレージの要件は、この利点を明確に示しています。たとえば、ControlNet-SDXLは1,251億のパラメータと2.5 GBのストレージをfp16形式で提供しています。対照的に、T2I-Adapter-SDXLはパラメータ(7,900万)とストレージ(158 MB)を大幅に削減し、それぞれ93.69%と94%の削減を実現しています。

https://huggingface.co/blog/t2i-sdxl-adapters

DiffusersチームとT2I-アダプタの研究者との最近の共同研究により、Stable Diffusion XL(SDXL)でのT2I-アダプタのサポートが実現しました。この共同研究では、SDXL上でのT2I-アダプタのスクラッチトレーニングに焦点を当て、スケッチ、キャニー、ラインアート、深度、オープンポーズなどのさまざまな条件要素において有望な結果をもたらしました。

T2I-Adapter-SDXLのトレーニングには、LAION-Aesthetics V2からの300万枚の高解像度の画像テキストペアが使用され、トレーニング設定では20,000-35,000ステップ、バッチサイズ128(データパラレルで単一のGPUバッチサイズ16)、定数学習率1e-5、混合精度(fp16)が指定されました。これらの設定は、速度、メモリ効率、画像品質のバランスを取り、コミュニティでの利用を容易にします。

Diffusersフレームワーク内でのT2I-Adapter-SDXLの利用は、一連のステップを通じて容易に行えます。まず、diffusers、controlnet_aux、transformers、accelerateなどの必要な依存関係をインストールする必要があります。次に、T2I-Adapter-SDXLを使用した画像生成プロセスは、適切な制御形式の条件画像を準備し、これらの画像とプロンプトをStableDiffusionXLAdapterPipelineに渡すという2つのステップで主に行われます。

実際の例では、Lineart Adapterがロードされ、入力画像に対してラインアートの検出が行われます。その後、定義されたプロンプトとパラメータを使用して画像生成が開始され、”adapter_conditioning_scale”や”adapter_conditioning_factor”などの引数を介して適用される条件の範囲をユーザーが制御できます。

結論として、T2I-アダプタは、事前学習済みのテキストから画像へのモデルを微調整する計算上の課題に対処する魅力的な代替手段を提供します。その小さなサイズ、効率的な動作、簡単な統合性により、さまざまな条件での画像生成のカスタマイズと制御に貢献し、人工知能の創造性とイノベーションを促進する貴重なツールとなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

コンテンツクリエーターに必要不可欠なChatGPTプラグイン

「CodeGenius、StoryWeaver、およびFactFinderなどの必須のChatGPTプラグインを見つけて、コンテンツ作成プロセスを向上させ...

データサイエンス

「エンタープライズAIの処理のための表現能力を向上させる鍵は、RAG + ファインチューニングです以下にその理由を説明します」

「ジェネレーティブAIはほとんどのCEOの頭にありますが、そのエンタープライズへの適応方法は議論の余地がありますその成功の...

AIテクノロジー

「Voicemod AIで自分自身のAIボイスを作成しましょう」

自分自身と会話できる世界を想像してみてください。実際には、あなたの声はあなたが望むものになることができます。それは、V...

人工知能

「今日の市場においてAIパワードモバイルアプリが際立っているのは何か?」

AIはモバイルアプリを革命し、個人の経験を提供します最新技術を駆使したアプリ開発の利点、成功、そして将来を探求してください

機械学習

「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分...

人工知能

音楽作曲のための変分トランスフォーマー:AIは音楽家を置き換えることができるのか?

導入 音楽の魅力的な世界では、創造性には制約がありません。クラシックの交響曲からモダンなエレクトロニックビートまで、そ...