「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」

「MITとAdobeの研究者による、ステップごとの画像生成器を拡散モデルに変換する人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) の紹介」

一定のトレーニングプロセスを経て、拡散モデルは画像生成を革新し、従来にない多様性とリアリズムのレベルを達成しました。しかし、GANやVAEとは異なり、そのサンプリングはガウス性ノイズのサンプルのノイズを徐々に減少させ、プログレッシブなデノイジングにより複雑な画像を生成する努力の連続的なプロセスです。これにより、生成パイプラインをクリエイティブなツールとして利用する際の相互作用の量が制限され、通常は多くの高価なニューラルネットワーク評価を必要とします。以前の手法は、初めの多段階の拡散サンプリングで見つかったノイズ→画像のマッピングを単回の学習ネットワークに濃縮し、サンプリングプロセスを高速化します。こうした高次元で複雑なマッピングをフィットすることは、確かに困難な作業です。

改良の余地の一つは、学習モデル全体のデノイジング経路を実行し、単一の損失を計算するための学習モデルのサンプル距離を徐々に拡大していく際に発生する高額な費用です。現在の手法は、元の多段階拡散モデルのデノイジングサイクルを繰り返さずに、学生のサンプル距離を徐々に拡張することでこれを軽減しています。ただし、元の多段階拡散モデルの方が蒸留版よりも優れています。逆に、研究チームは、ノイズと拡散生成された画像の対応を必要とせずに、学生の生成物が元の拡散モデルと同じであることを強調しています。一般的には、彼らの目標の理論的背景は、他の分布マッチング生成モデル(GMMNやGANなど)と似ています。

ただし、リアルなグラフィックを生成する能力は非常に優れているにもかかわらず、一般的なテキストから画像へのモデルのスケーリングは困難であることがわかっています。研究チームは、この問題を解決するために、以前にテキストから画像に広範にトレーニングされた拡散モデルを起点にしています。研究チームは、トレーニングされた拡散モデルを特に微調整することで、データ分布とそれによって生成される架空の分布を学びます。研究チームは、デノイズされた拡散出力を画像を「よりリアル」または(拡散モデルが偽の画像でトレーニングされている場合)「よりフェイク」にするための勾配方向として解釈することができます。なぜなら、拡散モデルは拡散分布のスコア関数を近似することで知られているからです。

最終的に、ジェネレータの勾配更新ルールは、この2つの差として作成され、人工の画像をよりリアリスティックに、よりフェイクから遠ざけます。また、事前学習された拡散モデルによるリアルと偽の分布のモデリングを使用して3Dオブジェクトのテスト時最適化を達成することも可能です。以前の研究では、Variational Score Distillationという手法を使用してこれを実証しています。研究チームは、同様の手法を使用して完全な生成モデルをトレーニングできることも発見しています。さらに、研究チームは、分布マッチング損失の存在下で、多段階拡散サンプリングの結果のわずかな数が事前計算され、1ステップの生成に関するシンプルな回帰損失を実装することで効果的な正則化子として機能することを見つけています。

MITとAdobe Researchの研究者は、Distribution Matching Distillation(DMD)と呼ばれるプロセスを提供しています。これは、画像の品質にほとんど影響を与えずに拡散モデルを1ステップの画像生成器に変換するプロセスです。彼らのアプローチは、VSD、GAN、およびpix2pixからのインスピレーションや洞察を受けています。この研究チームは、(1) 拡散モデルを使用してリアルな分布とフェイクの分布をモデル化し、(2) 多段階拡散出力とシンプルな回帰損失を一致させることで、高精度の1ステップ生成モデルをトレーニングすることができることを示しています。彼らのDistribution Matching Distillation(DMD)技術でトレーニングされたモデルをMS COCO 512×512のゼロショットテキストから画像の生成、CIFAR-10およびImageNet 64×64の画像生成など、さまざまなタスクで評価しています。彼らの1ステップジェネレータは、一括生成モデル、進行的ディスティレーション、修正フローなどの全てのベンチマークで、既知の少数ステップ拡散手法よりも優れたパフォーマンスを発揮します。

DMDはImageNetでのFIDが2.62であり、Consistency Modelを2.4倍上回ります。DMDはStable Diffusionと同じデノイザーアーキテクチャを使用して、MS-COCO 2014-30kで11.49の競争力のあるFIDを達成します。彼らの定量的および定性的な分析は、研究チームのモデルで生成される画像がより高度な品質であり、より高価なStable Diffusionモデルで生成されるものと比較できることを示しています。特に、このレベルの視覚品質を保ちながら、ニューラルネットワークの評価数を100倍減少させることができるという点で、その効率性によって、DMDはFP16推論を使用することで秒間20フレームの速度で512×512の画像を生成できるようになり、多くのインタラクティブなアプリケーションの可能性を開拓しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「GPUの加速なしで大規模なシーンをリアルタイムでマッピングできるのか?このAI論文は、高度なLiDARベースの位置特定とメッシュ作成のために「ImMesh」を紹介します」

実際の世界にマッチする仮想環境を提供することで、メタバース、VR / AR、ビデオゲーム、物理シミュレータを含む3Dアプリケー...

機械学習

「機械学習モデルを展開する」とはどういう意味ですか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています...

機械学習

「ルービックとマルコフ」

ルービックキューブは、巨大な状態空間とただ1つの解を持つ計画問題のプロトタイプですそれはまさに干し草の中の針の定義その...

人工知能

Orca LLM:ChatGPTの推論プロセスをシミュレートする

オルカは、LFMの推論過程を模倣するために学習する13BパラメータモデルですOrcaは、GPT-4からの豊富な信号を活用し、能力を向...

機械学習

このAI論文では、「PolyID:高性能バイオベースポリマーの発見における機械学習の先駆者」として、ポリ-ンにおける機械学習を紹介しています

人工知能は生活のあらゆる側面で使用されています。AIは生活のあらゆる方面で使用され、化学やポリマーなどさまざまな分野で...

AI研究

メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「...