「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

Introducing InstaFlow an innovative one-step generative AI model derived from the open-source StableDiffusion (SD).

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階のサンプリング手順は、望ましい結果を得るために多くの推論ステップを要求することが多く、その鈍さで認識されています。本論文では、著者らはオープンソースのStable Diffusion(SD)モデルから派生した革新的なワンステップ生成モデルを紹介しています。

彼らは、SDを蒸留しようとする単純な試みが、重大な問題であるノイズと画像の非最適な結合によって完全に失敗したことを発見しました。この課題を克服するために、研究者たちは確率的フローを組み込んだ生成モデルの最近の進展であるRectified Flowに頼りました。Rectified Flowは、確率フローの軌跡を徐々に直線化するというユニークな手法である「リフロー」を組み込んでいます。

これにより、ノイズ分布と画像分布間の輸送コストが低減されます。この結合の改善により、蒸留プロセスが大幅に容易になり、初期の問題が解決されます。上記の画像はInstaflowの動作を示しています。

MS COCO 2017-5kデータセットにおけるFID(フレシェ・インセプション・ディスタンス)スコア23.3により、ワンステップ拡散ベースのテキストから画像への生成モデルの利用が証明されました。これは、従来のプログレッシブ蒸留と呼ばれる最新の技術(37.2 → 23.3のFID)と比べて、大幅な改善を示しています。さらに、17億のパラメータを備えた拡張ネットワークを使用することで、FIDをさらに向上させ、22.4のスコアを達成しました。このワンステップモデルは「InstaFlow」と呼ばれています。

MS COCO 2014-30kデータセットでは、InstaFlowは0.09秒でFID 13.1という優れたパフォーマンスを示し、≤ 0.1秒のカテゴリで最も優れたパフォーマーとなっています。これは、最近のStyleGAN-Tモデル(0.1秒でFID 13.9)を上回ります。特筆すべきは、InstaFlowのトレーニングにはわずか199 A100 GPU日という比較的低い計算コストがかかります。

これらの結果に基づき、研究者たちは以下の貢献を提案しています:

  • ワンステップSDの改善: 2-Rectified Flowモデルのトレーニングは完全に収束せず、75.2 A100 GPU日の投資が行われました。これは元のSDのトレーニングコスト(6250 A100 GPU日)の一部にすぎません。データセット、モデルサイズ、およびトレーニング時間をスケーリングすることで、ワンステップSDのパフォーマンスが大幅に改善すると研究者たちは考えています。
  • ワンステップControlNet: パイプラインを適用してControlNetモデルをトレーニングすることで、ミリ秒単位で制御可能なコンテンツを生成することが可能です。
  • ワンステップモデルのパーソナライズ: 拡散モデルとLORAのトレーニング目標でSDを微調整することにより、ユーザーは事前トレーニングされたSDをカスタマイズして特定のコンテンツとスタイルを生成することができます。
  • ワンステップ生成のためのニューラルネットワーク構造: テキスト条件付きのリフローと蒸留を使用してワンステップSDモデルを作成する能力の向上に伴い、いくつかの興味深い方向が浮かび上がります:

(1) GANで使用される成功したアーキテクチャなど、U-Netを品質と効率の面で超える可能性のある代替のワンステップ構造の探索。

(2) プルーニング、量子化などのテクニックを活用して、効率的なニューラルネットワークを構築するためのアプローチを最小限の品質劣化でワンステップ生成をより計算上負担の少ないものにする。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『自分のデータでChatGPTを訓練する方法:ソフトウェア開発者向けガイド』

「MEMWALKERとの対話型リーディングにより、AIモデルの強化が行われ、より豊かで文脈を理解した対話が可能となり、現代のAIの...

人工知能

「ChatGPT Meme Creator Pluginを使ってミームを作成する(ビジネスを成長させるために)」

この記事では、ChatGPT Meme Creatorプラグインを使用して、実際に面白いミームを作成する方法を詳しく説明します

機械学習

RAGのNLPにおける検索と生成の統一的な革新的アプローチ

イントロダクション AIの急速に進化する領域に、ゲームチェンジングなイノベーションが登場し、機械が人間の言語と関わる方法...

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...

AIニュース

「AppleとGoogle、ChatGPTを年間アプリに見落とす」

驚くべき事態の中、テックジャイアントのAppleとGoogleは通常のパターンから逸脱し、それぞれの「年間最優秀アプリ」を選びま...

AIニュース

「ジェミニに会おう:チャットGPTに対するGoogleの答え」

人工知能の進化する世界において、Googleは最新作のGemini AIにより画期的な飛躍を遂げました。Googleによると、異なるサイズ...