テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています

A new AI research from Tel Aviv and Copenhagen University introduces a plug-and-play approach using discriminative signals to quickly fine-tune diffusion models from text to images.

テキストから画像への拡散モデルは、入力テキストの説明に基づいて多様で高品質な画像を生成することで印象的な成功を収めています。しかし、入力テキストが語彙的に曖昧であるか、複雑な詳細を含む場合は、課題に直面することがあります。これにより、服の「アイロン」などの意図した画像コンテンツが「元素的な」金属として誤って表現される場合があります。

これらの制約に対処するために、既存の手法では、事前に訓練された分類器を使用してノイズ除去プロセスをガイドすることがあります。1つのアプローチは、拡散モデルのスコア推定値を事前に訓練された分類器の対数確率の勾配とブレンドすることです。簡単に言えば、このアプローチでは、拡散モデルと事前に訓練された分類器の両方の情報を使用して、望ましい結果に一致し、画像が分類器の判断に合致するように生成します。

ただし、この方法には、実際のノイズのあるデータで動作することができる分類器が必要です。

他の戦略では、特定のデータセットを使用してクラスラベルに拡散プロセスを条件付けることがあります。効果的ではありますが、このアプローチは、ウェブ上の画像とテキストのペアの広範なコレクションで訓練されたモデルの完全な表現能力からは程遠いです。

別のアプローチとしては、特定の概念やラベルに関連する少量の画像を使用して拡散モデルまたはその入力トークンの一部を微調整することがあります。ただし、このアプローチには、新しい概念のための遅いトレーニング、画像分布の変化、および少数の画像からの制約された多様性のキャプチャなどの欠点があります。

この記事では、これらの問題に取り組む提案されたアプローチを報告しており、望ましいクラスのより正確な表現、語彙的な曖昧さの解消、および細かい詳細の描写の改善を提供しています。これにより、元の事前訓練済み拡散モデルの表現力を損なうことなく、前述の欠点に直面することなく達成されます。この方法の概要は、以下の図に示されています。

拡散プロセスをガイドしたり、モデル全体を変更する代わりに、このアプローチでは、各関心クラスに対応する単一の追加トークンの表現を更新することに焦点を当てています。重要なことは、この更新はラベル付きの画像でモデルのチューニングを行わないことです。

この方法では、事前に訓練された分類器に基づいて、新しい画像を生成する反復的なプロセスを通じて、特定のターゲットクラスのトークン表現を学習します。分類器からのフィードバックは、各反復で指定されたクラストークンの進化をガイドします。勾配スキップと呼ばれる新しい最適化技術が採用されており、勾配は拡散プロセスの最終ステージを通じてのみ伝播されます。最適化されたトークンは、元の拡散モデルを使用して画像を生成するための条件付きテキスト入力の一部として組み込まれます。

著者によれば、この方法にはいくつかの主要な利点があります。事前に訓練された分類器のみが必要であり、明示的にノイズのあるデータで訓練された分類器を要求しません。また、より時間のかかる方法とは対照的に、クラストークンがトレーニングされるとすぐに生成された画像の改善が可能で、速度に優れています。

研究から選択されたサンプル結果を以下の画像に示します。これらの事例研究は、提案された手法と最先端の手法の比較的な概要を提供します。

これは、事前にトレーニングされた分類器を利用してテキストから画像への拡散モデルを微調整する、新しいAI非侵襲技術の要約でした。興味があり、さらに詳しく知りたい場合は、以下に引用されたリンクをご参照ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「A.I.ブームで最も不可欠な賞を必死に追い求める」

人工知能製品を動かすために、スタートアップ企業と投資家は、グラフィックス処理ユニット(GPU)として知られる重要なチップ...

AI研究

東京大学の研究者たちは、攻撃者から機密性の高い人工知能(AI)ベースのアプリケーションを保護するための新しい技術を紹介しました

近年、人工知能(AI)の急速な進歩により、コンピュータビジョン、音声認識など、さまざまな分野で広範な応用が行われるよう...

機械学習

「AI/MLツールとフレームワーク:包括的な比較ガイド」

この記事では、主要なAI/MLツールやフレームワークの簡潔な比較を提供し、特定のAI/MLプロジェクトに適した技術の選択を支援...

人工知能

マーク外:AI進捗競争におけるメトリクスゲーミングの落とし穴

「共産主義のネイル工場から資本主義のボット戦まで、この記事では、虚偽の基準や狭視的なハイプサイクルが意味のある進歩を...

機械学習

人間のフィードバックからの強化学習(RLHF)

たぶん、あなたはこの技術について聞いたことがあるかもしれませんが、完全には理解していないかもしれません特にPPOの部分に...

AI研究

スタンフォード大学の研究者がRT-Sketchを紹介します:目標仕様としての手描きスケッチを通じた視覚模倣学習の向上

研究者は、手描きスケッチを視覚模倣学習における目標指定の未開拓の手法として紹介しました。これらのスケッチは、自然言語...