GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する
GoogleとJohns Hopkins Universityの研究者による画像生成のための効率的な蒸留方法:拡散モデルの制限を克服
高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に支配しています。最近のトレンドでは、画像の変形、エンハンス、またはスーパーレゾリューションなどの典型的な画像変換タスクは、事前訓練されたテキストから画像への生成モデルを用いて、外部画像条件によって生成された結果によってガイドされます。事前訓練モデルによって導入された拡散先は、さまざまな変換手順における条件付き画像生成の視覚的品質を著しく向上させることが証明されています。一方、拡散モデルは頻繁に多くの反復を必要とする反復的な洗練プロセスに大いに依存しており、効果的に完了するには時間がかかることがあります。
解像度の高い画像合成への依存度はさらに高まります。たとえば、高度なサンプリング技術を使用しても、最新のテキストから画像への潜在拡散モデルでは、20〜200のサンプルステップがしばしば必要とされます。遅いサンプリング期間は、上記の条件付き拡散モデルの実用的な適用範囲を制限しています。最近の拡散サンプリングの高速化の試みは、蒸留技術を使用しています。これらの技術により、サンプリングを大幅に高速化し、4〜8ステップで終了させることができますが、生成パフォーマンスにほとんど影響を与えません。最近の研究では、これらの技術は既に訓練された大規模なテキストから画像への拡散モデルを凝縮するためにも使用できることを示しています。
彼らは提案されたアプローチの様々な条件付きタスクにおける蒸留モデルの出力を提供し、拡散先を凝縮したサンプリング期間で再現する能力を示しています。
- スタンフォードの研究者たちは、分散変換の問題に適したシンプルかつスケーラブルな拡張であるDDBMsを提案しています
- このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成
- このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです
これらの蒸留方法に基づいて、条件付き拡散モデルを蒸留するためには、蒸留最初または条件付きチューニング最初の2つのステージ蒸留プロセスを利用することができます。同じサンプリング期間が与えられた場合、これらの2つの手法は通常、蒸留されていない条件付き拡散モデルよりも優れた結果を提供します。ただし、クロスタスクの柔軟性と学習の難易度に関して異なる利点があります。本研究では、既に訓練された非条件付き拡散モデルから条件付き拡散モデルを抽出するための新しい蒸留方法を提案します。彼らのアプローチは、伝統的な2段階の蒸留技術とは異なり、非条件付け事前訓練から始まり、蒸留された条件付き拡散モデルで終了する単一のステージを特徴としています。
図1は、与えられた視覚的設定からの手がかりを活用することで、彼らの蒸留モデルがわずか1/4のサンプリングステップで高品質な結果を予測できることを示しています。このシンプルな学習により、元のテキストから画像へのデータは必要ありません。以前の蒸留プロセスでは必要であったものです。また、最初のステージでのファインチューニング手法を使用する場合によくある誤りである事前訓練モデルの拡散先の犠牲を避けます。広範な実験データによると、同じサンプル時間が与えられた場合、彼らの蒸留モデルは視覚的品質と定量的パフォーマンスの両方で従来の蒸留技術よりも優れた結果を示します。
条件付き生成のためのパラメータ効率の高い蒸留技術に関する研究がさらに必要な分野です。彼らは、パラメータ効率の高い新しい蒸留メカニズムを提供するアプローチを示しています。追加の学習可能なパラメータをいくつか追加することで、非条件付き拡散モデルを条件付きタスクに対応させることができます。特に、彼らの公式は、T2I-AdapterやControlNetなど、既に使用されているパラメータ効率の高い調整技術との統合を可能にします。条件付きアダプタの追加された学習可能なパラメータと元の拡散モデルの固定パラメータの両方を使用することで、彼らの蒸留技術は反復的な修正を最小限に抑えつつ、依存タスクのための拡散先を再現することを学習します。この新しいパラダイムにより、いくつかの条件付きタスクの有用性が大幅に向上しました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします
- バイトダンスとキング・アブドゥッラー科学技術大学のAI研究者が、静止したポートレート写真の髪の毛を揺らすための新しいフレームワークを発表します
- スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート
- 「UCSDとByteDanceの研究者が、アクターズネルフ(ActorsNeRF)を発表:未知の俳優にも対応するアニメータブルな人間アクターネルフモデルで、フューショット設定の環境に汎化する」という意味です
- 「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」
- マンチェスター大学の研究者たちは、MentalLLaMAを導入しましたこれは、読みやすい精神健康分析のためのオープンソースLLMシリーズで、指導に従う能力を持っています
- MITによる新しい機械学習の研究は、大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法を示しています