スタビリティAIがアドバーサリアルディフュージョンディスティレーション(ADD)を導入します:最小限のステップでの高精度、リアルタイムイメージ合成の画期的な手法

スタビリティAIがADD(アドバーサリアルディフュージョンディスティレーション)を導入!最小手順で高精度なリアルタイムイメージ合成の画期的な手法!

生成モデリングにおいて、拡散モデル(DM)は、高品質な画像とビデオの合成を進めるための重要な役割を果たしています。拡張性と反復性は、DMの主な利点の2つであり、自由なフォームのテキストの手がかりからの画像の作成など、複雑なタスクを可能にします。残念ながら、反復的な推論プロセスには多くのサンプルステップが必要であり、現在のところDMのリアルタイム使用を妨げています。一方で、生成的対抗ネットワーク(GAN)の単一ステップの構成と固有の速度は、それらを特徴づけます。ただし、サンプルの品質に関しては、大規模データセットへの拡張の取り組みにもかかわらず、GANはしばしばより多くのDMが必要です。

本研究のStability AIの研究者たちは、GANの固有の速度とDMの高いサンプル品質を結びつけることを目指しています。彼らの戦略は概念的にはシンプルです。研究チームはAdversarial Diffusion Distillation(ADD)と呼ばれる汎用的な技術を提案しており、この技術は事前学習済みの拡散モデルの推論ステップを1〜4つのサンプリングステップに削減することで、モデルの全体的なパフォーマンスを向上させる可能性があります。研究チームは2つのトレーニングゴールを組み合わせています:(i)スコア蒸留サンプリング(SDS)に相当する蒸留損失と対抗損失。

各正方向パスでは、対抗損失がモデルが直接実際の画像の多様体上にあるサンプルを生成することを促し、他の蒸留技術でよく見られるぼやけ具合などのアーティファクトを除去します。大規模なDMに見られる高い組成能を保持し、事前学習された(かつ固定された)DMを教師として使用することで、蒸留損失は高い知識を効率的に活用します。彼らの手法は推論中に分類器フリーガイダンスを使用せずにメモリ要件も最小限に抑えています。従来の一ステップGANベースの方法と比べての利点は、研究チームがモデルを繰り返し開発し、結果を向上させることができるということです。

図1は、単一の操作で生成された高精細な写真を示しています。Adversarial Diffusion Distillation(ADD)トレーニングは、各サンプルごとに単一のU-Net評価を作成するために使用されます。

以下は彼らの貢献の要約です:

• 研究チームはADDという技術を提案しました。この技術は、事前学習済みの拡散モデルを高品質でリアルタイムの画像ジェネレータに変換するために、わずか1〜4つのサンプリングステップを必要とします。研究チームは、対抗トレーニングとスコア蒸留を組み合わせた独自のアプローチのために、いくつかのデザイン上の決定を慎重に考慮しました。

• 5122 pxの解像度でフォースサンプリングステップを使用したADD-XLは、その教師モデルSDXL-Baseを上回ります。• ADDは、1つの推論ステップで高い現実感を維持しながら、複雑な画像構成を処理できます。• LCM、LCM-XL、および単一ステップGANなどの強力なベースラインを大幅に上回るADD。

結論として、この研究は、事前学習済みの拡散モデルをクイックで少数ステップの画像生成モデルに蒸留するための汎用的な技術、Adversarial Diffusion Distillation(ADD)を紹介しています。研究チームは、識別器を通じて実データを利用し、拡散の教師を通じた構造的な知識を利用しながら、対抗目的とスコア蒸留目的を組み合わせて、公共のStable DiffusionとSDXLモデルを蒸留することを組み合わせています。彼らの分析は、彼らの手法がすべての競合手法を打ち負かすことを示し、1〜2つのステップの超高速サンプリング領域で特に優れて機能することを示しています。また、研究チームはさまざまなプロセスを通じてサンプルを改善することができます。彼らのモデルは、IF、SDXL、およびOpenMUSEなどの人気のある多ステップジェネレータよりも4つのサンプルステップで優れたパフォーマンスを発揮します。彼らの方法論は、一つのステップで高品質の写真を開発することにより、基盤モデルを使用したリアルタイム生成の新たな可能性を開くものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上...

データサイエンス

「JAXにおけるディープ強化学習の優しい入門」

最近の強化学習(RL)の進歩、例えばWaymoの自律タクシーやDeepMindの人間を超えたチェスプレイヤーエージェントなどは、ニュ...

機械学習

未来を点火する:TensorRT-LLMのリリースにより、AI推論のパフォーマンスが向上し、RTXを搭載したWindows 11 PCで新しいモデルのサポートが追加されました

Windows 11 PC上の人工知能は、ゲーマーやクリエイター、ストリーマー、オフィスワーカー、学生、そしてカジュアルなPCユーザ...

AI研究

オープンAIのCEOであるサム・アルトマン氏が解任されました

驚きの展開となり、AI研究のリーディングカンパニーであるOpenAIは、共同創設者兼CEOのサム・オールトマン氏の解任を発表しま...

機械学習

「転移学習を探求しましょう...」(Ten'i gakushū o tankyū shimashou...)

転移学習については、多くの定義があります基本的には、事前学習済みモデルの知識を活用して新しい問題を解決することを指し...

AIニュース

開発者や企業のためのジェミニAPIとさらに新しいAIツール

「ジェミニAPIおよびそれ以外にも4つのAIツール、Imagen 2、MedLM、開発者向けのDuet AI、セキュリティオペレーション向けのD...