ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheを紹介します

ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheをご紹介します

人工知能(AI)とディープラーニングの進歩により、人間とコンピューターの相互作用は大きく変革されました。拡散モデルの導入により、生成モデリングはテキスト生成、画像生成、音声合成、映像制作などのさまざまなアプリケーションで驚異的な能力を示しています。

拡散モデルは優れた性能を示しているものの、これらのモデルは通常、モデルサイズの大きさと順次のノイズ除去手順に関連する高い計算コストがあります。これらのモデルは非常に遅い推論速度を持っており、モデルの剪定、蒸留、量子化などの手法を使用してステップごとのモデル推論のオーバーヘッドを低下させるなど、研究者によって様々な取り組みが行われています。

従来の拡散モデルの圧縮方法では、大量の再学習が必要であり、これには実用的および財務的な困難が伴います。この問題を克服するため、研究者チームはディープキャッシュと呼ばれる新しい学習フリーパラダイムを導入し、拡散を加速するために拡散モデルのアーキテクチャを最適化しました。

ディープキャッシュは、拡散モデルの連続したノイズ除去段階に固有の時間的冗長性を利用しています。この冗長性の理由は、いくつかの特徴が連続したノイズ除去ステップで繰り返されるためです。これにより、これらの特性のキャッシングと取り出しの方法を導入することで、重複計算を大幅に削減しています。チームは、このアプローチがU-Netの特性に基づいていることを共有しており、これにより高レベルの特徴を効果的かつ効率的に更新しながら、低レベルの特徴を再利用することができます。

ディープキャッシュの創造的なアプローチにより、Stable Diffusion v1.5に対して2.3倍の高速化が実現されており、CLIPスコアはわずか0.05の低下となっています。また、LDM-4-Gに対しては素晴らしい4.1倍の高速化が実現されており、ただしImageNetではFIDが0.22の低下となっています。

チームはDeepCacheを評価し、実験的な比較で現在の剪定および蒸留手法よりも優れたパフォーマンスを示すことを確認しました。また、既存のサンプリング手法とも互換性があることが示されています。DDIMやPLMSと同様の、またはわずかに優れた性能を示すことが報告されており、同時に生成される出力の品質を損なうことなく、効率を最大限に引き出しています。

研究者は、主な貢献を以下のようにまとめています。

  1. DeepCacheは現在の高速サンプラーとうまく機能し、同様またはより良い生成能力を実現する可能性を示しています。
  1. 実行時に拡散モデルを動的に圧縮することで、画像生成の速度を改善しますが、追加のトレーニングは必要ありません。
  1. キャッシュ可能な特徴を使用することで、高レベルの特徴における時間的一貫性を利用して、重複計算を削減します。
  1. 拡張キャッシング間隔に対するカスタマイズされた技術を導入することで、DeepCacheは特徴のキャッシュの柔軟性を向上させます。
  1. DDPM、LDM、Stable Diffusionモデルにおいて、CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017、PartiPromptでテストした場合、DeepCacheはより効果的な結果を示します。
  1. 再学習が必要な剪定および蒸留アルゴリズムよりも優れたパフォーマンスを発揮するDeepCacheは、高い効果性を維持します。

結論として、DeepCacheは従来の圧縮技術の代替手段として、拡散モデルのアクセラレータとして大いに期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「PyTorch ProfilerとTensorBoardを使用して、データ入力パイプラインのボトルネックを解消する」

「これは、GPUベースのPyTorchワークロードのパフォーマンス分析と最適化に関するシリーズ投稿の4番目の投稿ですこの投稿では...

AIニュース

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレース...

機械学習

「CLAMPに会ってください:推論時に新しい実験に適応できる分子活性予測のための新しいAIツール」

数十年にわたり、化学構造に基づいて分子の化学的、巨視的、または生物学的な特性を予測するタスクは、重要な科学的な研究課...

データサイエンス

「Jupyter AIに会おう Jupyterノートブックで人工知能の力を解き放つ」

人工知能(AI)とコーディングの革新的な進歩において、Project Jupyterはそのツールキットに画期的な追加を導入します。それ...

AI研究

「AWS 研究者がジェミニを紹介:大規模な深層学習トレーニングにおける画期的な高速障害回復」

ライス大学とAmazon Web Servicesの研究者チームが、GEMINIと呼ばれる分散トレーニングシステムを開発しました。このシステム...

AI研究

メタスの新しいテキストから画像へのモデル - CM3leon論文の説明

メタは最近、Stable-Diffusion [2]、Midjourney、またはDALLE [3]のような拡散に基づかない最新のテキストから画像へのモデル...