GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する

GoogleとJohns Hopkins Universityの研究者による画像生成のための効率的な蒸留方法:拡散モデルの制限を克服

高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に支配しています。最近のトレンドでは、画像の変形、エンハンス、またはスーパーレゾリューションなどの典型的な画像変換タスクは、事前訓練されたテキストから画像への生成モデルを用いて、外部画像条件によって生成された結果によってガイドされます。事前訓練モデルによって導入された拡散先は、さまざまな変換手順における条件付き画像生成の視覚的品質を著しく向上させることが証明されています。一方、拡散モデルは頻繁に多くの反復を必要とする反復的な洗練プロセスに大いに依存しており、効果的に完了するには時間がかかることがあります。

解像度の高い画像合成への依存度はさらに高まります。たとえば、高度なサンプリング技術を使用しても、最新のテキストから画像への潜在拡散モデルでは、20〜200のサンプルステップがしばしば必要とされます。遅いサンプリング期間は、上記の条件付き拡散モデルの実用的な適用範囲を制限しています。最近の拡散サンプリングの高速化の試みは、蒸留技術を使用しています。これらの技術により、サンプリングを大幅に高速化し、4〜8ステップで終了させることができますが、生成パフォーマンスにほとんど影響を与えません。最近の研究では、これらの技術は既に訓練された大規模なテキストから画像への拡散モデルを凝縮するためにも使用できることを示しています。

図1は、我々の手法が非条件付きモデルを即座に条件付き拡散モデルに変換する様子を示しています。

彼らは提案されたアプローチの様々な条件付きタスクにおける蒸留モデルの出力を提供し、拡散先を凝縮したサンプリング期間で再現する能力を示しています。

これらの蒸留方法に基づいて、条件付き拡散モデルを蒸留するためには、蒸留最初または条件付きチューニング最初の2つのステージ蒸留プロセスを利用することができます。同じサンプリング期間が与えられた場合、これらの2つの手法は通常、蒸留されていない条件付き拡散モデルよりも優れた結果を提供します。ただし、クロスタスクの柔軟性と学習の難易度に関して異なる利点があります。本研究では、既に訓練された非条件付き拡散モデルから条件付き拡散モデルを抽出するための新しい蒸留方法を提案します。彼らのアプローチは、伝統的な2段階の蒸留技術とは異なり、非条件付け事前訓練から始まり、蒸留された条件付き拡散モデルで終了する単一のステージを特徴としています。

図1は、与えられた視覚的設定からの手がかりを活用することで、彼らの蒸留モデルがわずか1/4のサンプリングステップで高品質な結果を予測できることを示しています。このシンプルな学習により、元のテキストから画像へのデータは必要ありません。以前の蒸留プロセスでは必要であったものです。また、最初のステージでのファインチューニング手法を使用する場合によくある誤りである事前訓練モデルの拡散先の犠牲を避けます。広範な実験データによると、同じサンプル時間が与えられた場合、彼らの蒸留モデルは視覚的品質と定量的パフォーマンスの両方で従来の蒸留技術よりも優れた結果を示します。

条件付き生成のためのパラメータ効率の高い蒸留技術に関する研究がさらに必要な分野です。彼らは、パラメータ効率の高い新しい蒸留メカニズムを提供するアプローチを示しています。追加の学習可能なパラメータをいくつか追加することで、非条件付き拡散モデルを条件付きタスクに対応させることができます。特に、彼らの公式は、T2I-AdapterやControlNetなど、既に使用されているパラメータ効率の高い調整技術との統合を可能にします。条件付きアダプタの追加された学習可能なパラメータと元の拡散モデルの固定パラメータの両方を使用することで、彼らの蒸留技術は反復的な修正を最小限に抑えつつ、依存タスクのための拡散先を再現することを学習します。この新しいパラダイムにより、いくつかの条件付きタスクの有用性が大幅に向上しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AI「ブレイクスルー」:ニューラルネットが人間と同様の言語の一般化能力を持つ

「ニューラルネットワークを用いた人工知能は、人間の知能の重要な側面である新しい言葉を素早く取り入れる点で、ChatGPTを上...

AIテクノロジー

6つのGenAIポッドキャスト、聴くべきです

はじめに 急速に進化する 人工知能(AI)の世界において、生成AI(GenAI)の領域は魅力的でダイナミックな分野として注目され...

データサイエンス

「機械エンジニアからデータサイエンティストへの転職方法」

データサイエンスは世界を変革し、問題解決のアプローチ方法を変えました。データプロフェッショナルへの高い需要、高収入、...

機械学習

ゲーム業界の皆様へ!もう奇妙な鏡は不要です、Mirror-NeRFが登場しました!

NeRF(ニューラル・ラディアンス・フィールド)は、RNNとCNNの組み合わせを使用して、形状、材質、テクスチャなどの物体の物...

機械学習

SimPer:周期的なターゲットの簡単な自己教示学習

Googleのスタッフ研究者であるDaniel McDuffと学生研究者のYuzhe Yangによって投稿されました。 周期的なデータ(心拍や地球...

データサイエンス

コンテンツモデレーションからゼロショット分類へ

もし、追加情報や文脈がない小さなテキストを分析し、自分自身のデータを定義するために最も妥当なラベルを取得したい場合、...