スタビリティAIがアドバーサリアルディフュージョンディスティレーション(ADD)を導入します:最小限のステップでの高精度、リアルタイムイメージ合成の画期的な手法
スタビリティAIがADD(アドバーサリアルディフュージョンディスティレーション)を導入!最小手順で高精度なリアルタイムイメージ合成の画期的な手法!
生成モデリングにおいて、拡散モデル(DM)は、高品質な画像とビデオの合成を進めるための重要な役割を果たしています。拡張性と反復性は、DMの主な利点の2つであり、自由なフォームのテキストの手がかりからの画像の作成など、複雑なタスクを可能にします。残念ながら、反復的な推論プロセスには多くのサンプルステップが必要であり、現在のところDMのリアルタイム使用を妨げています。一方で、生成的対抗ネットワーク(GAN)の単一ステップの構成と固有の速度は、それらを特徴づけます。ただし、サンプルの品質に関しては、大規模データセットへの拡張の取り組みにもかかわらず、GANはしばしばより多くのDMが必要です。
本研究のStability AIの研究者たちは、GANの固有の速度とDMの高いサンプル品質を結びつけることを目指しています。彼らの戦略は概念的にはシンプルです。研究チームはAdversarial Diffusion Distillation(ADD)と呼ばれる汎用的な技術を提案しており、この技術は事前学習済みの拡散モデルの推論ステップを1〜4つのサンプリングステップに削減することで、モデルの全体的なパフォーマンスを向上させる可能性があります。研究チームは2つのトレーニングゴールを組み合わせています:(i)スコア蒸留サンプリング(SDS)に相当する蒸留損失と対抗損失。
各正方向パスでは、対抗損失がモデルが直接実際の画像の多様体上にあるサンプルを生成することを促し、他の蒸留技術でよく見られるぼやけ具合などのアーティファクトを除去します。大規模なDMに見られる高い組成能を保持し、事前学習された(かつ固定された)DMを教師として使用することで、蒸留損失は高い知識を効率的に活用します。彼らの手法は推論中に分類器フリーガイダンスを使用せずにメモリ要件も最小限に抑えています。従来の一ステップGANベースの方法と比べての利点は、研究チームがモデルを繰り返し開発し、結果を向上させることができるということです。
- 「ローカルCPU上の小規模言語モデルのためのステップバイステップガイド」
- ディープシークは、ディープシーク-67Bモデルをオープンソース化しました:中国からの最新のChatGPTのライバル
- メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを可能にするパブリックで利用可能なAIシステム
以下は彼らの貢献の要約です:
• 研究チームはADDという技術を提案しました。この技術は、事前学習済みの拡散モデルを高品質でリアルタイムの画像ジェネレータに変換するために、わずか1〜4つのサンプリングステップを必要とします。研究チームは、対抗トレーニングとスコア蒸留を組み合わせた独自のアプローチのために、いくつかのデザイン上の決定を慎重に考慮しました。
• 5122 pxの解像度でフォースサンプリングステップを使用したADD-XLは、その教師モデルSDXL-Baseを上回ります。• ADDは、1つの推論ステップで高い現実感を維持しながら、複雑な画像構成を処理できます。• LCM、LCM-XL、および単一ステップGANなどの強力なベースラインを大幅に上回るADD。
結論として、この研究は、事前学習済みの拡散モデルをクイックで少数ステップの画像生成モデルに蒸留するための汎用的な技術、Adversarial Diffusion Distillation(ADD)を紹介しています。研究チームは、識別器を通じて実データを利用し、拡散の教師を通じた構造的な知識を利用しながら、対抗目的とスコア蒸留目的を組み合わせて、公共のStable DiffusionとSDXLモデルを蒸留することを組み合わせています。彼らの分析は、彼らの手法がすべての競合手法を打ち負かすことを示し、1〜2つのステップの超高速サンプリング領域で特に優れて機能することを示しています。また、研究チームはさまざまなプロセスを通じてサンプルを改善することができます。彼らのモデルは、IF、SDXL、およびOpenMUSEなどの人気のある多ステップジェネレータよりも4つのサンプルステップで優れたパフォーマンスを発揮します。彼らの方法論は、一つのステップで高品質の写真を開発することにより、基盤モデルを使用したリアルタイム生成の新たな可能性を開くものです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAIペーパーは、さまざまなタスクでChatGPTに追いついたり超えたりすると主張するオープンソースの大規模言語モデルの詳細なレビューを公開しています
- 「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」
- 「Perplexity(パープレキシティ)が2つの新たなオンラインLLMモデルを発表:『pplx-7b-online』と『pplx-70b-online』」
- 「PepCNNという名のディープラーニングツールを紹介します:シーケンス、構造、言語モデルの特徴を使用してタンパク質中のペプチド結合残基を予測するためのものです」
- 「3Dシーン表現の境界を破る:新しいAIテクニックによる高速かつ効率的なレンダリングとストレージ要件の削減によるゲームの変革」
- 「Meditronを紹介:LLaMA-2に基づいたオープンソースの医学用大規模言語モデル(LLM)のスイート」
- ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています