GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する

GoogleとJohns Hopkins Universityの研究者による画像生成のための効率的な蒸留方法:拡散モデルの制限を克服

高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に支配しています。最近のトレンドでは、画像の変形、エンハンス、またはスーパーレゾリューションなどの典型的な画像変換タスクは、事前訓練されたテキストから画像への生成モデルを用いて、外部画像条件によって生成された結果によってガイドされます。事前訓練モデルによって導入された拡散先は、さまざまな変換手順における条件付き画像生成の視覚的品質を著しく向上させることが証明されています。一方、拡散モデルは頻繁に多くの反復を必要とする反復的な洗練プロセスに大いに依存しており、効果的に完了するには時間がかかることがあります。

解像度の高い画像合成への依存度はさらに高まります。たとえば、高度なサンプリング技術を使用しても、最新のテキストから画像への潜在拡散モデルでは、20〜200のサンプルステップがしばしば必要とされます。遅いサンプリング期間は、上記の条件付き拡散モデルの実用的な適用範囲を制限しています。最近の拡散サンプリングの高速化の試みは、蒸留技術を使用しています。これらの技術により、サンプリングを大幅に高速化し、4〜8ステップで終了させることができますが、生成パフォーマンスにほとんど影響を与えません。最近の研究では、これらの技術は既に訓練された大規模なテキストから画像への拡散モデルを凝縮するためにも使用できることを示しています。

図1は、我々の手法が非条件付きモデルを即座に条件付き拡散モデルに変換する様子を示しています。

彼らは提案されたアプローチの様々な条件付きタスクにおける蒸留モデルの出力を提供し、拡散先を凝縮したサンプリング期間で再現する能力を示しています。

これらの蒸留方法に基づいて、条件付き拡散モデルを蒸留するためには、蒸留最初または条件付きチューニング最初の2つのステージ蒸留プロセスを利用することができます。同じサンプリング期間が与えられた場合、これらの2つの手法は通常、蒸留されていない条件付き拡散モデルよりも優れた結果を提供します。ただし、クロスタスクの柔軟性と学習の難易度に関して異なる利点があります。本研究では、既に訓練された非条件付き拡散モデルから条件付き拡散モデルを抽出するための新しい蒸留方法を提案します。彼らのアプローチは、伝統的な2段階の蒸留技術とは異なり、非条件付け事前訓練から始まり、蒸留された条件付き拡散モデルで終了する単一のステージを特徴としています。

図1は、与えられた視覚的設定からの手がかりを活用することで、彼らの蒸留モデルがわずか1/4のサンプリングステップで高品質な結果を予測できることを示しています。このシンプルな学習により、元のテキストから画像へのデータは必要ありません。以前の蒸留プロセスでは必要であったものです。また、最初のステージでのファインチューニング手法を使用する場合によくある誤りである事前訓練モデルの拡散先の犠牲を避けます。広範な実験データによると、同じサンプル時間が与えられた場合、彼らの蒸留モデルは視覚的品質と定量的パフォーマンスの両方で従来の蒸留技術よりも優れた結果を示します。

条件付き生成のためのパラメータ効率の高い蒸留技術に関する研究がさらに必要な分野です。彼らは、パラメータ効率の高い新しい蒸留メカニズムを提供するアプローチを示しています。追加の学習可能なパラメータをいくつか追加することで、非条件付き拡散モデルを条件付きタスクに対応させることができます。特に、彼らの公式は、T2I-AdapterやControlNetなど、既に使用されているパラメータ効率の高い調整技術との統合を可能にします。条件付きアダプタの追加された学習可能なパラメータと元の拡散モデルの固定パラメータの両方を使用することで、彼らの蒸留技術は反復的な修正を最小限に抑えつつ、依存タスクのための拡散先を再現することを学習します。この新しいパラダイムにより、いくつかの条件付きタスクの有用性が大幅に向上しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google DeepMindは、直接報酬微調整(DRaFT)を導入しました:微分可能な報酬関数を最大化するための効果的な人工知能手法における拡散モデルの微調整

拡散モデルは、さまざまなデータタイプでの生成モデリングを革新しました。ただし、テキストの説明から見た目の良い画像を生...

AI研究

「GoogleとMITの研究者がStableRepを紹介:合成イメージによるAIトレーニングで機械学習を革新する」

研究者たちは、テキストから画像への変換モデルによって生成される合成画像の潜在能力を探ることで、視覚的な表現を学び、よ...

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...

AI研究

人工知能を使用した3Dモデルのカスタマイズを革新する:MITの研究者が、機能性に影響を与えずに美的な調整を行うためのユーザーフレンドリーなインターフェースを開発しました

3Dプリントとデザインにおいて、オープンソースのオンラインリポジトリから入手した3Dデザインをカスタマイズする能力は、持...

AI研究

「UBCカナダの研究者が、都市ドライバーに最も安全な経路をマッピングする新しいAIアルゴリズムを紹介」

ナビゲーションアプリはリアルタイムでのナビゲーション指示を提供するアプリケーションです。利用可能なほとんどのナビゲー...