ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheを紹介します

ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheをご紹介します

人工知能(AI)とディープラーニングの進歩により、人間とコンピューターの相互作用は大きく変革されました。拡散モデルの導入により、生成モデリングはテキスト生成、画像生成、音声合成、映像制作などのさまざまなアプリケーションで驚異的な能力を示しています。

拡散モデルは優れた性能を示しているものの、これらのモデルは通常、モデルサイズの大きさと順次のノイズ除去手順に関連する高い計算コストがあります。これらのモデルは非常に遅い推論速度を持っており、モデルの剪定、蒸留、量子化などの手法を使用してステップごとのモデル推論のオーバーヘッドを低下させるなど、研究者によって様々な取り組みが行われています。

従来の拡散モデルの圧縮方法では、大量の再学習が必要であり、これには実用的および財務的な困難が伴います。この問題を克服するため、研究者チームはディープキャッシュと呼ばれる新しい学習フリーパラダイムを導入し、拡散を加速するために拡散モデルのアーキテクチャを最適化しました。

ディープキャッシュは、拡散モデルの連続したノイズ除去段階に固有の時間的冗長性を利用しています。この冗長性の理由は、いくつかの特徴が連続したノイズ除去ステップで繰り返されるためです。これにより、これらの特性のキャッシングと取り出しの方法を導入することで、重複計算を大幅に削減しています。チームは、このアプローチがU-Netの特性に基づいていることを共有しており、これにより高レベルの特徴を効果的かつ効率的に更新しながら、低レベルの特徴を再利用することができます。

ディープキャッシュの創造的なアプローチにより、Stable Diffusion v1.5に対して2.3倍の高速化が実現されており、CLIPスコアはわずか0.05の低下となっています。また、LDM-4-Gに対しては素晴らしい4.1倍の高速化が実現されており、ただしImageNetではFIDが0.22の低下となっています。

チームはDeepCacheを評価し、実験的な比較で現在の剪定および蒸留手法よりも優れたパフォーマンスを示すことを確認しました。また、既存のサンプリング手法とも互換性があることが示されています。DDIMやPLMSと同様の、またはわずかに優れた性能を示すことが報告されており、同時に生成される出力の品質を損なうことなく、効率を最大限に引き出しています。

研究者は、主な貢献を以下のようにまとめています。

  1. DeepCacheは現在の高速サンプラーとうまく機能し、同様またはより良い生成能力を実現する可能性を示しています。
  1. 実行時に拡散モデルを動的に圧縮することで、画像生成の速度を改善しますが、追加のトレーニングは必要ありません。
  1. キャッシュ可能な特徴を使用することで、高レベルの特徴における時間的一貫性を利用して、重複計算を削減します。
  1. 拡張キャッシング間隔に対するカスタマイズされた技術を導入することで、DeepCacheは特徴のキャッシュの柔軟性を向上させます。
  1. DDPM、LDM、Stable Diffusionモデルにおいて、CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017、PartiPromptでテストした場合、DeepCacheはより効果的な結果を示します。
  1. 再学習が必要な剪定および蒸留アルゴリズムよりも優れたパフォーマンスを発揮するDeepCacheは、高い効果性を維持します。

結論として、DeepCacheは従来の圧縮技術の代替手段として、拡散モデルのアクセラレータとして大いに期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ネクサスフローのNexusRaven-V2がGPT-4を自分のゲームで打ち負かす方法!」

人工知能の急速に進化する風景の中で、確立されたAIモデルの支配に挑戦する新たな候補が現れました。テックサークルで話題の...

人工知能

ミッドジャーニーV5:ミッドジャーニーの最新バージョン

最新のMidjourneyのインカネーションであるV5は、このアート生成人工知能の進化におけるマイルストーンを示しています

機械学習

ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム

大型言語モデル(LLM)は、高レベルの計画に優れていますが、ペン回しのような低レベルのタスクに対するサポートが必要です。...

機械学習

バード:新しいChatGPTの競争相手

「人工知能におけるユーザーエクスペリエンスを最適化するための絶え間ない探求心を持つGoogleは、最新で最も先進的な対話シ...

AIニュース

INVE 対話型AIマジックでビデオ編集を革新する

画像編集なしの世界を想像できますか?面白いミーム、息をのむような風景、魅力的なインスタグラムの写真はどこに魅力を失い...

データサイエンス

「ソフトウェア開発におけるAIの活用:ソリューション戦略と実装」

この記事では、プロセス、ツールの選択、課題の克服について触れながら、ソフトウェア開発にAIをシームレスに統合するための...