「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

Introducing InstaFlow an innovative one-step generative AI model derived from the open-source StableDiffusion (SD).

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階のサンプリング手順は、望ましい結果を得るために多くの推論ステップを要求することが多く、その鈍さで認識されています。本論文では、著者らはオープンソースのStable Diffusion(SD)モデルから派生した革新的なワンステップ生成モデルを紹介しています。

彼らは、SDを蒸留しようとする単純な試みが、重大な問題であるノイズと画像の非最適な結合によって完全に失敗したことを発見しました。この課題を克服するために、研究者たちは確率的フローを組み込んだ生成モデルの最近の進展であるRectified Flowに頼りました。Rectified Flowは、確率フローの軌跡を徐々に直線化するというユニークな手法である「リフロー」を組み込んでいます。

これにより、ノイズ分布と画像分布間の輸送コストが低減されます。この結合の改善により、蒸留プロセスが大幅に容易になり、初期の問題が解決されます。上記の画像はInstaflowの動作を示しています。

MS COCO 2017-5kデータセットにおけるFID(フレシェ・インセプション・ディスタンス)スコア23.3により、ワンステップ拡散ベースのテキストから画像への生成モデルの利用が証明されました。これは、従来のプログレッシブ蒸留と呼ばれる最新の技術(37.2 → 23.3のFID)と比べて、大幅な改善を示しています。さらに、17億のパラメータを備えた拡張ネットワークを使用することで、FIDをさらに向上させ、22.4のスコアを達成しました。このワンステップモデルは「InstaFlow」と呼ばれています。

MS COCO 2014-30kデータセットでは、InstaFlowは0.09秒でFID 13.1という優れたパフォーマンスを示し、≤ 0.1秒のカテゴリで最も優れたパフォーマーとなっています。これは、最近のStyleGAN-Tモデル(0.1秒でFID 13.9)を上回ります。特筆すべきは、InstaFlowのトレーニングにはわずか199 A100 GPU日という比較的低い計算コストがかかります。

これらの結果に基づき、研究者たちは以下の貢献を提案しています:

  • ワンステップSDの改善: 2-Rectified Flowモデルのトレーニングは完全に収束せず、75.2 A100 GPU日の投資が行われました。これは元のSDのトレーニングコスト(6250 A100 GPU日)の一部にすぎません。データセット、モデルサイズ、およびトレーニング時間をスケーリングすることで、ワンステップSDのパフォーマンスが大幅に改善すると研究者たちは考えています。
  • ワンステップControlNet: パイプラインを適用してControlNetモデルをトレーニングすることで、ミリ秒単位で制御可能なコンテンツを生成することが可能です。
  • ワンステップモデルのパーソナライズ: 拡散モデルとLORAのトレーニング目標でSDを微調整することにより、ユーザーは事前トレーニングされたSDをカスタマイズして特定のコンテンツとスタイルを生成することができます。
  • ワンステップ生成のためのニューラルネットワーク構造: テキスト条件付きのリフローと蒸留を使用してワンステップSDモデルを作成する能力の向上に伴い、いくつかの興味深い方向が浮かび上がります:

(1) GANで使用される成功したアーキテクチャなど、U-Netを品質と効率の面で超える可能性のある代替のワンステップ構造の探索。

(2) プルーニング、量子化などのテクニックを活用して、効率的なニューラルネットワークを構築するためのアプローチを最小限の品質劣化でワンステップ生成をより計算上負担の少ないものにする。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

テキストから音声へ - 大規模な言語モデルのトレーニング

はじめに 音楽家の声コマンドをAIが受け取り、美しいメロディックなギターサウンドに変換する世界を想像してみてください。こ...

人工知能

AIにおけるブロックチェーンの包括的なレビュー

AIとブロックチェーンは、近年最も画期的な技術革新として浮上しています人工知能(AI):機械やコンピュータが人間の思考や...

機械学習

「AIがクリーンエネルギーの未来を支える方法」

人工知能は、最先端の技術と共に太陽と風の力を利用して世界を改善しています。 I AM AI ビデオシリーズの最新エピソードでは...

機械学習

「条件付き生成敵対的ネットワークとは何ですか?」

CGAN(Conditional Generative Adversarial Networks)は、特定のパラメータやラベルをGANに組み込むことで、データ作成プロ...

データサイエンス

AIOpsの力を解き放つ:最適化されたITオペレーションのための知的自動化によるDevOpsの強化

DevOpsのプラクティスを革命化するAIOps(ITオペレーションのための人工知能)の変革的な可能性を発見してください

AI研究

メタAI研究者がGenBenchを導入:自然言語処理の汎化を進める革命的なフレームワーク

モデルの一般化能力は、自然言語処理(NLP)の持続的な成功にとって重要です。重要な要素として一般的に受け入れられているも...