テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています

A new AI research from Tel Aviv and Copenhagen University introduces a plug-and-play approach using discriminative signals to quickly fine-tune diffusion models from text to images.

テキストから画像への拡散モデルは、入力テキストの説明に基づいて多様で高品質な画像を生成することで印象的な成功を収めています。しかし、入力テキストが語彙的に曖昧であるか、複雑な詳細を含む場合は、課題に直面することがあります。これにより、服の「アイロン」などの意図した画像コンテンツが「元素的な」金属として誤って表現される場合があります。

これらの制約に対処するために、既存の手法では、事前に訓練された分類器を使用してノイズ除去プロセスをガイドすることがあります。1つのアプローチは、拡散モデルのスコア推定値を事前に訓練された分類器の対数確率の勾配とブレンドすることです。簡単に言えば、このアプローチでは、拡散モデルと事前に訓練された分類器の両方の情報を使用して、望ましい結果に一致し、画像が分類器の判断に合致するように生成します。

ただし、この方法には、実際のノイズのあるデータで動作することができる分類器が必要です。

他の戦略では、特定のデータセットを使用してクラスラベルに拡散プロセスを条件付けることがあります。効果的ではありますが、このアプローチは、ウェブ上の画像とテキストのペアの広範なコレクションで訓練されたモデルの完全な表現能力からは程遠いです。

別のアプローチとしては、特定の概念やラベルに関連する少量の画像を使用して拡散モデルまたはその入力トークンの一部を微調整することがあります。ただし、このアプローチには、新しい概念のための遅いトレーニング、画像分布の変化、および少数の画像からの制約された多様性のキャプチャなどの欠点があります。

この記事では、これらの問題に取り組む提案されたアプローチを報告しており、望ましいクラスのより正確な表現、語彙的な曖昧さの解消、および細かい詳細の描写の改善を提供しています。これにより、元の事前訓練済み拡散モデルの表現力を損なうことなく、前述の欠点に直面することなく達成されます。この方法の概要は、以下の図に示されています。

拡散プロセスをガイドしたり、モデル全体を変更する代わりに、このアプローチでは、各関心クラスに対応する単一の追加トークンの表現を更新することに焦点を当てています。重要なことは、この更新はラベル付きの画像でモデルのチューニングを行わないことです。

この方法では、事前に訓練された分類器に基づいて、新しい画像を生成する反復的なプロセスを通じて、特定のターゲットクラスのトークン表現を学習します。分類器からのフィードバックは、各反復で指定されたクラストークンの進化をガイドします。勾配スキップと呼ばれる新しい最適化技術が採用されており、勾配は拡散プロセスの最終ステージを通じてのみ伝播されます。最適化されたトークンは、元の拡散モデルを使用して画像を生成するための条件付きテキスト入力の一部として組み込まれます。

著者によれば、この方法にはいくつかの主要な利点があります。事前に訓練された分類器のみが必要であり、明示的にノイズのあるデータで訓練された分類器を要求しません。また、より時間のかかる方法とは対照的に、クラストークンがトレーニングされるとすぐに生成された画像の改善が可能で、速度に優れています。

研究から選択されたサンプル結果を以下の画像に示します。これらの事例研究は、提案された手法と最先端の手法の比較的な概要を提供します。

これは、事前にトレーニングされた分類器を利用してテキストから画像への拡散モデルを微調整する、新しいAI非侵襲技術の要約でした。興味があり、さらに詳しく知りたい場合は、以下に引用されたリンクをご参照ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

線形回帰と勾配降下法

線形回帰は機械学習に存在する基本アルゴリズムの1つですその内部ワークフローを理解することは、データサイエンスの他のアル...

機械学習

「シームレスM4Tに出会ってください:Meta AIの新しいスピーチ翻訳の基盤モデル」

「音声は急速に基盤モデルの次のフロンティアの一つとなっています言語やコンピュータビジョンなどの領域がまだ主流ですが、...

機械学習

「ロボットのビジョン-言語プランニングにおけるGPT-4Vの力を発揮する方法は?ViLaと出会ってください:長期計画のためにGPT-4Vを活用するシンプルで効果的なAIメソッド」

高レベルなパフォーマンスをロボットのタスクプランニングで達成する問題に対して、清華大学、上海人工知能研究所、上海騎至...

機械学習

機械学習エンジニアのためのLLMOps入門ガイド

イントロダクション OpenAIのChatGPTのリリースは、大規模言語モデル(LLM)への関心を高め、人工知能について誰もが話題にし...

AI研究

バージニア工科大学とマイクロソフトの研究者がアイデアの探求と推論の能力を高めるAIアプローチ、アルゴリズムオブソウツを紹介

大規模言語モデル(LLM)は最近進歩を遂げ、その有用性がさまざまな問題解決活動についての認識を高めています。これらのモデ...

機械学習

「オープンソースモデルと商用AI/ML APIの違い」

「最近数ヶ月間、おそらく多くの議論に遭遇したことでしょうそれは、大規模言語モデル(LLM)に対してオープンソースのAPIを...