GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する

GoogleとJohns Hopkins Universityの研究者による画像生成のための効率的な蒸留方法:拡散モデルの制限を克服

高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に支配しています。最近のトレンドでは、画像の変形、エンハンス、またはスーパーレゾリューションなどの典型的な画像変換タスクは、事前訓練されたテキストから画像への生成モデルを用いて、外部画像条件によって生成された結果によってガイドされます。事前訓練モデルによって導入された拡散先は、さまざまな変換手順における条件付き画像生成の視覚的品質を著しく向上させることが証明されています。一方、拡散モデルは頻繁に多くの反復を必要とする反復的な洗練プロセスに大いに依存しており、効果的に完了するには時間がかかることがあります。

解像度の高い画像合成への依存度はさらに高まります。たとえば、高度なサンプリング技術を使用しても、最新のテキストから画像への潜在拡散モデルでは、20〜200のサンプルステップがしばしば必要とされます。遅いサンプリング期間は、上記の条件付き拡散モデルの実用的な適用範囲を制限しています。最近の拡散サンプリングの高速化の試みは、蒸留技術を使用しています。これらの技術により、サンプリングを大幅に高速化し、4〜8ステップで終了させることができますが、生成パフォーマンスにほとんど影響を与えません。最近の研究では、これらの技術は既に訓練された大規模なテキストから画像への拡散モデルを凝縮するためにも使用できることを示しています。

図1は、我々の手法が非条件付きモデルを即座に条件付き拡散モデルに変換する様子を示しています。

彼らは提案されたアプローチの様々な条件付きタスクにおける蒸留モデルの出力を提供し、拡散先を凝縮したサンプリング期間で再現する能力を示しています。

これらの蒸留方法に基づいて、条件付き拡散モデルを蒸留するためには、蒸留最初または条件付きチューニング最初の2つのステージ蒸留プロセスを利用することができます。同じサンプリング期間が与えられた場合、これらの2つの手法は通常、蒸留されていない条件付き拡散モデルよりも優れた結果を提供します。ただし、クロスタスクの柔軟性と学習の難易度に関して異なる利点があります。本研究では、既に訓練された非条件付き拡散モデルから条件付き拡散モデルを抽出するための新しい蒸留方法を提案します。彼らのアプローチは、伝統的な2段階の蒸留技術とは異なり、非条件付け事前訓練から始まり、蒸留された条件付き拡散モデルで終了する単一のステージを特徴としています。

図1は、与えられた視覚的設定からの手がかりを活用することで、彼らの蒸留モデルがわずか1/4のサンプリングステップで高品質な結果を予測できることを示しています。このシンプルな学習により、元のテキストから画像へのデータは必要ありません。以前の蒸留プロセスでは必要であったものです。また、最初のステージでのファインチューニング手法を使用する場合によくある誤りである事前訓練モデルの拡散先の犠牲を避けます。広範な実験データによると、同じサンプル時間が与えられた場合、彼らの蒸留モデルは視覚的品質と定量的パフォーマンスの両方で従来の蒸留技術よりも優れた結果を示します。

条件付き生成のためのパラメータ効率の高い蒸留技術に関する研究がさらに必要な分野です。彼らは、パラメータ効率の高い新しい蒸留メカニズムを提供するアプローチを示しています。追加の学習可能なパラメータをいくつか追加することで、非条件付き拡散モデルを条件付きタスクに対応させることができます。特に、彼らの公式は、T2I-AdapterやControlNetなど、既に使用されているパラメータ効率の高い調整技術との統合を可能にします。条件付きアダプタの追加された学習可能なパラメータと元の拡散モデルの固定パラメータの両方を使用することで、彼らの蒸留技術は反復的な修正を最小限に抑えつつ、依存タスクのための拡散先を再現することを学習します。この新しいパラダイムにより、いくつかの条件付きタスクの有用性が大幅に向上しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AWS上でのPySparkの展開におけるベストプラクティスは何ですか?」

イントロダクション ビッグデータと高度な分析において、PySparkは大規模なデータセットの処理と分散データの分析における強...

機械学習

「ロンドン帝国大学チーム、少ないデモンストレーションで新たな現実世界のタスクをマスターするための人工知能の方法を開発」

ロボット工学と人工知能の常に進化する分野で、興味深く挑戦的な問題の一つは、完全に異なるオブジェクトでの仕事をロボット...

AI研究

このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(G...

機械学習

量産自動運転におけるBEVパーセプション

BEVの認識技術は、ここ数年で非常に進歩しました自動運転車の周りの環境を直接認識することができますBEVの認識技術はエンド...

機械学習

「40歳以上の方にオススメのAIツール(2023年11月版)」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオと画像を作成したいすべての人のためのAIベースのツールです。ビ...

AIニュース

ロボット犬が世界記録を速度で打ち立てました

韓国先端科学技術院は、ギネス世界記録において、犬のような能力を備えた4足歩行ロボットの見事な創造力により認められました...