「忙しい?これが拡散モデルのブラックボックスを開くためのクイックガイドです」

Busy? This is a quick guide to opening the black box of diffusion models.

デコードステーブル拡散:トレーニング、新しい画像の生成、および与えられたコンテキストを使用した制御

プロンプト:「変なポジションで眠っているおかしな猫のオイルパステルの絵」[著者によるイメージ- DALL-Eを使用して生成]

もし私の記事を開いたのであれば、おそらくDALL-E、Midjourney、またはStability AIなどのサービスからのテキストから画像を生成するモデルを使用したことがあるでしょう。

それらはすべて拡散モデルに基づいています。

魔法のブラックボックスとして扱いたいとしても、その内部でどのように機能するかについての直感を持つことは、より良い芸術を生成するのに役立ちます。

この記事では、拡散モデルが新しい画像を生成し、新しいデータセットでトレーニングされ、与えられたコンテキスト(テキスト、他の画像、カテゴリなど)に基づいて制御される方法についての直感を提供することを目指しています。

技術的な詳細にはあまり深入りせず、拡散モデルが機能する主要な要素に概念的に焦点を当てます。

目次

  1. 拡散モデルの動作についての直感を得る
  2. 拡散モデルが新しい画像を生成する方法
  3. 拡散モデルのトレーニングのクイックガイド
  4. 与えられたコンテキストで安定した拡散モデルを制御する

#1. 拡散モデルの動作についての直感を得る

例として、猫のデータセットを使用します。

したがって、新しい猫を生成するために安定した拡散モデルをトレーニングしたいとします。

それでは、次のようにします:

データセットを生成する- ガウスノイズを追加する

データセットからすべての画像を取り、徐々にそれらにガウスノイズを追加します。

これで、初期の猫の画像ごとにさまざまなノイズレベルが含まれる複数の画像が得られます。

モデルをトレーニングする- ノイズを除去する

モデルの実際の役割は、ノイズのある画像を受け取り、そのノイズを除去することです。

したがって、拡散モデルをトレーニングする際には:- ノイズのある画像を入力として受け取ります- ノイズを除去しようとします- 「クリーンな」画像と元のノイズのない画像の間の損失が計算されます

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...