「忙しい?これが拡散モデルのブラックボックスを開くためのクイックガイドです」
Busy? This is a quick guide to opening the black box of diffusion models.
デコードステーブル拡散:トレーニング、新しい画像の生成、および与えられたコンテキストを使用した制御
もし私の記事を開いたのであれば、おそらくDALL-E、Midjourney、またはStability AIなどのサービスからのテキストから画像を生成するモデルを使用したことがあるでしょう。
それらはすべて拡散モデルに基づいています。
魔法のブラックボックスとして扱いたいとしても、その内部でどのように機能するかについての直感を持つことは、より良い芸術を生成するのに役立ちます。
この記事では、拡散モデルが新しい画像を生成し、新しいデータセットでトレーニングされ、与えられたコンテキスト(テキスト、他の画像、カテゴリなど)に基づいて制御される方法についての直感を提供することを目指しています。
- 「プロセスマイニングとデジタルトランスフォーメーションによる産業4.0における業務の効率化の実現」
- クラウドの証明 GeForce NOWがUltimate KovaaK’s Challengeの結果を発表
- コンテンツクリエイター向けの20のクロードのプロンプト
技術的な詳細にはあまり深入りせず、拡散モデルが機能する主要な要素に概念的に焦点を当てます。
目次
- 拡散モデルの動作についての直感を得る
- 拡散モデルが新しい画像を生成する方法
- 拡散モデルのトレーニングのクイックガイド
- 与えられたコンテキストで安定した拡散モデルを制御する
#1. 拡散モデルの動作についての直感を得る
例として、猫のデータセットを使用します。
したがって、新しい猫を生成するために安定した拡散モデルをトレーニングしたいとします。
それでは、次のようにします:
データセットを生成する- ガウスノイズを追加する
データセットからすべての画像を取り、徐々にそれらにガウスノイズを追加します。
これで、初期の猫の画像ごとにさまざまなノイズレベルが含まれる複数の画像が得られます。
モデルをトレーニングする- ノイズを除去する
モデルの実際の役割は、ノイズのある画像を受け取り、そのノイズを除去することです。
したがって、拡散モデルをトレーニングする際には:- ノイズのある画像を入力として受け取ります- ノイズを除去しようとします- 「クリーンな」画像と元のノイズのない画像の間の損失が計算されます
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles