「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

Introducing InstaFlow an innovative one-step generative AI model derived from the open-source StableDiffusion (SD).

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階のサンプリング手順は、望ましい結果を得るために多くの推論ステップを要求することが多く、その鈍さで認識されています。本論文では、著者らはオープンソースのStable Diffusion(SD)モデルから派生した革新的なワンステップ生成モデルを紹介しています。

彼らは、SDを蒸留しようとする単純な試みが、重大な問題であるノイズと画像の非最適な結合によって完全に失敗したことを発見しました。この課題を克服するために、研究者たちは確率的フローを組み込んだ生成モデルの最近の進展であるRectified Flowに頼りました。Rectified Flowは、確率フローの軌跡を徐々に直線化するというユニークな手法である「リフロー」を組み込んでいます。

これにより、ノイズ分布と画像分布間の輸送コストが低減されます。この結合の改善により、蒸留プロセスが大幅に容易になり、初期の問題が解決されます。上記の画像はInstaflowの動作を示しています。

MS COCO 2017-5kデータセットにおけるFID(フレシェ・インセプション・ディスタンス)スコア23.3により、ワンステップ拡散ベースのテキストから画像への生成モデルの利用が証明されました。これは、従来のプログレッシブ蒸留と呼ばれる最新の技術(37.2 → 23.3のFID)と比べて、大幅な改善を示しています。さらに、17億のパラメータを備えた拡張ネットワークを使用することで、FIDをさらに向上させ、22.4のスコアを達成しました。このワンステップモデルは「InstaFlow」と呼ばれています。

MS COCO 2014-30kデータセットでは、InstaFlowは0.09秒でFID 13.1という優れたパフォーマンスを示し、≤ 0.1秒のカテゴリで最も優れたパフォーマーとなっています。これは、最近のStyleGAN-Tモデル(0.1秒でFID 13.9)を上回ります。特筆すべきは、InstaFlowのトレーニングにはわずか199 A100 GPU日という比較的低い計算コストがかかります。

これらの結果に基づき、研究者たちは以下の貢献を提案しています:

  • ワンステップSDの改善: 2-Rectified Flowモデルのトレーニングは完全に収束せず、75.2 A100 GPU日の投資が行われました。これは元のSDのトレーニングコスト(6250 A100 GPU日)の一部にすぎません。データセット、モデルサイズ、およびトレーニング時間をスケーリングすることで、ワンステップSDのパフォーマンスが大幅に改善すると研究者たちは考えています。
  • ワンステップControlNet: パイプラインを適用してControlNetモデルをトレーニングすることで、ミリ秒単位で制御可能なコンテンツを生成することが可能です。
  • ワンステップモデルのパーソナライズ: 拡散モデルとLORAのトレーニング目標でSDを微調整することにより、ユーザーは事前トレーニングされたSDをカスタマイズして特定のコンテンツとスタイルを生成することができます。
  • ワンステップ生成のためのニューラルネットワーク構造: テキスト条件付きのリフローと蒸留を使用してワンステップSDモデルを作成する能力の向上に伴い、いくつかの興味深い方向が浮かび上がります:

(1) GANで使用される成功したアーキテクチャなど、U-Netを品質と効率の面で超える可能性のある代替のワンステップ構造の探索。

(2) プルーニング、量子化などのテクニックを活用して、効率的なニューラルネットワークを構築するためのアプローチを最小限の品質劣化でワンステップ生成をより計算上負担の少ないものにする。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「GPT-5がOpenAIによって商標登録されました:それがChatGPTの未来について何を示しているのでしょうか?」

「GPT-5とは何ですか?また、OpenAIがなぜそれに商標を取得したのでしょうか?人工一般知能(AGI)に向けた次のステップとな...

AIニュース

OpenAIを使用してカスタムチャットボットを開発する

はじめに チャットボットは自動化されたサポートと個別の体験を提供し、ビジネスが顧客とつながる方法を革新しました。人工知...

人工知能

「Adversarial Autoencoders オートエンコーダーとGANの間のギャップを埋める」

イントロダクション 機械学習のダイナミックな領域において、2つの強力な技術を組み合わせることで、Adversarial Autoencoder...

機械学習

「イノベーションと持続可能性のバランス:病理学における環境責任に対する現実的なアプローチ」

この研究は、病理学における重大な懸念である深層学習の炭素排出量(CO2eq)に焦点を当てています。この環境への影響は、医療応...

機械学習

AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンス...

機械学習

「成功したプロンプトの構造の探索」

この記事では、著者がGPTConsoleのBirdとPixie AIエージェントのためのプログラマのハンドブックを読者に提供しています