イージーフォト:あなたの個人AI写真ジェネレーター

『AIで作る、あなた専用の簡単フォトジェネレーター』

安定拡散ウェブユーザーインターフェース、またはSD-WebUIは、ブラウザインターフェースを提供するためにGradioライブラリを活用する安定拡散モデルの包括的なプロジェクトです。今日は、AIのポートレートと画像の生成を可能にする革新的なWebUIプラグインであるEasyPhotoについて話をします。EasyPhoto WebUIプラグインは、さまざまなテンプレートを使用してAIポートレートを作成し、さまざまな写真スタイルと複数の修正をサポートします。さらに、EasyPhotoの機能をさらに向上させるために、ユーザーはより満足度の高い、正確で多様な結果を得るためにSDXLモデルを使用して画像を生成することができます。さあ、始めましょう。

EasyPhotoと安定拡散の紹介

安定拡散フレームワークは、開発者が入力テキストの説明に基づいて現実的な画像を生成するために使用する人気で堅牢な拡散ベースの生成フレームワークです。その能力により、安定拡散フレームワークは、画像の外装、画像の修復、画像から画像への変換など、さまざまなアプリケーションに広範な適用が可能です。安定拡散ウェブユーザーインターフェース、またはSD-WebUIは、このフレームワークの中でも最も人気のある、よく知られたアプリケーションの1つとして際立っています。Gradioライブラリに基づいたブラウザインターフェースを提供し、安定拡散モデルに対するインタラクティブでユーザーフレンドリーなインターフェースを提供します。画像生成の制御と利便性をさらに向上させるために、SD-WebUIはさまざまな安定拡散アプリケーションを統合しています。

SD-WebUIフレームワークの提供する利便性のおかげで、EasyPhotoフレームワークの開発者は、それを完全なアプリケーションではなく、ウェブプラグインとして作成することを決定しました。既存の方法とは異なり、しばしばアイデンティティの損失や画像に非現実的な特徴を導入する問題を抱えることが多いのに対し、EasyPhotoフレームワークは、安定拡散モデルの画像から画像への能力を活用して、正確で現実的な画像を生成します。ユーザーはEasyPhotoフレームワークをWebUI内の拡張として簡単にインストールすることができ、より広範なユーザーに対してユーザーフレンドリーでアクセス可能なインターフェースを提供します。EasyPhotoフレームワークは、入力アイデンティティに密接に似た、アイデンティティガイド付きの高品質で現実的なAIポートレートを生成することができます。

まず、EasyPhotoフレームワークでは、いくつかの画像をアップロードしてオンラインで顔LoRAまたはLow-Rank Adaptationモデルをトレーニングすることによって、ユーザーが自分自身のデジタル分身を作成するよう要求します。LoRAフレームワークは、低ランク適応技術を活用して、拡散モデルを迅速に微調整します。このプロセスにより、ベースモデルは特定のユーザーのID情報を理解することができます。トレーニングされたモデルは、基準となる安定拡散モデルにマージおよび統合され、干渉します。さらに、干渉プロセス中、モデルは安定拡散モデルを使用して干渉テンプレートの顔の領域を再描画し、入力画像と出力画像の類似性をさまざまなControlNetユニットを使用して検証します。

EasyPhotoフレームワークは、境界アーティファクトやアイデンティティの損失などの潜在的な問題に対処するために、2段階の拡散プロセスをデプロイし、生成された画像が視覚的な不一致を最小限に抑えながらユーザーのアイデンティティを維持することを保証します。さらに、EasyPhotoフレームワークの干渉パイプラインは、ポートレートを生成するだけでなく、ユーザーのIDに関連するものを生成するためにも使用することができます。これは、特定のIDに対してLoRAモデルをトレーニングすると、さまざまなAI画像を生成することができ、バーチャルな試着などの広範な適用が可能であることを意味します。

まとめると、EasyPhotoフレームワーク

  1. 複数のLoRAモデルを組み合わせて、生成された画像の顔の忠実度を維持するための新しいアプローチを提案します。
  2. さまざまな強化学習手法を使用して、LoRAモデルを顔のアイデンティティ報酬に最適化し、トレーニング画像と生成された結果のアイデンティティの類似性を向上させるための支援を行います。
  3. 美的品質と類似性を持つAI写真を生成するために、二段階のインペイントベースの拡散プロセスを提案します。

EasyPhoto: アーキテクチャとトレーニング

次の図はEasyPhoto AIフレームワークのトレーニングプロセスを示しています。

見ての通り、フレームワークはまずユーザーにトレーニング画像の入力を求め、そして顔検出を行い顔の位置を検出します。フレームワークが顔を検出すると、顔の領域に焦点を当てた事前に定義された特定の比率を使用して入力画像を切り取ります。その後、フレームワークは美肌化および視覚的にクリアな顔のトレーニング画像を取得するために美肌化および顕著性検出モデルを展開します。これらの2つのモデルは、顔の視覚的品質を向上させるために重要な役割を果たし、背景情報を削除し、トレーニング画像が主に顔を含むことを保証します。最後に、フレームワークはこれらの加工済みの画像と入力プロンプトを使用してLoRAモデルを訓練し、ユーザー固有の顔の特徴をより効果的かつ正確に理解する能力を備えます。

さらに、トレーニングフェーズでは、フレームワークは重要な検証ステップを含みます。この検証ステップでは、フレームワークがトレーニングされたLoRAモデルによって生成された検証画像と、ユーザーが入力した画像との間の顔IDギャップを計算します。検証ステップは、LoRAモデルの融合を達成するための基本的なプロセスであり、直接ユーザーの正確なデジタル表現またはドッペルゲンガーに変換されることを保証します。さらに、最適な顔IDスコアを持つ検証画像が顔ID画像として選択され、この顔ID画像は干渉生成のアイデンティティ類似性を向上させるために使用されます。

さらに、アンサンブルプロセスに基づいて、フレームワークは尤度推定を主な目標とし、顔のアイデンティティの類似性を保持することを下流目標としてLoRAモデルを訓練します。この問題に対処するために、EasyPhotoフレームワークは強化学習技術を使用して直接下流目標を最適化します。その結果、LoRAモデルが学習する顔の特徴は改善され、テンプレート生成結果間の類似性が向上し、テンプレート間で汎化を示します。

干渉プロセス

次の図は、EasyPhotoフレームワークでの個々のユーザーIDの干渉プロセスを示しており、3つのパートに分かれています。

  • 顔の前処理: ControlNet参照および前処理済みの入力画像を取得するためのプロセスです。
  • 最初の拡散: ユーザーの入力に似た粗い結果を生成するのに役立ちます。
  • 2回目の拡散: 境界のアーティファクトを修正し、画像をより正確で現実味のあるものにします。

入力では、フレームワークは顔ID画像(訓練検証中に生成された最適な顔IDスコアを使用)と干渉テンプレートを受け取ります。出力は、ユーザーの高精細で正確かつ現実的な肖像写真であり、干渉テンプレートに基づいてユーザーのアイデンティティと個別の外見に近いものです。これらのプロセスを詳しく見てみましょう。

顔の前処理

意識的な推論せずに干渉テンプレートに基づいてAIの肖像写真を生成する方法の一つは、SDモデルを使用して干渉テンプレートの顔領域を補完することです。また、ControlNetフレームワークをプロセスに組み込むことで、ユーザーのアイデンティティの保存だけでなく、生成された画像間の類似性も向上させることができます。ただし、ControlNetを直接領域補完に使用することは、以下の潜在的な問題を引き起こす可能性があります。

  • 入力と生成されたイメージの不一致: テンプレート画像のキーポイントと顔ID画像のキーポイントが互換性がないため、顔ID画像を参照としてControlNetを使用することは、出力にいくつかの不一致を引き起こす可能性があります。
  • 補完領域の欠陥: 領域をマスキングし、新しい顔で補完することによって目に見える欠陥が生じる可能性があります。特に補完境界を沿って欠陥が生じると、生成された画像の信頼性だけでなく、リアリズムにも悪影響を与えます。
  • ControlNetによるアイデンティティの喪失: 訓練プロセスではControlNetフレームワークを使用しないため、干渉フェーズでControlNetを使用すると、訓練されたLoRAモデルが入力ユーザーIDのアイデンティティを保存する能力に影響を与える可能性があります。

上記で述べた問題に対処するために、EasyPhotoフレームワークは3つの手順を提案しています。

  • 配置と貼り付け:顔貼り付けアルゴリズムを使用することで、EasyPhotoフレームワークは、顔のIDとテンプレート間の顔の特徴点の不一致の問題に取り組むことを目指しています。まず、モデルは、face_idとテンプレート画像の顔の特徴点を計算し、その後、モデルは、テンプレート画像の顔の特徴点をface_id画像に合わせるために使用されるアフィン変換行列を決定します。その結果得られる画像は、face_id画像の同じ特徴点を保持し、またテンプレート画像とも対応します。
  • フェイスフューズ:フェイスフューズは、マスクのインペイントによる境界アーティファクトの修正に使用される新しい手法であり、ControlNetフレームワークを使用してアーティファクトの修正を行います。この手法により、EasyPhotoフレームワークは調和の取れたエッジを保持し、画像生成のプロセスを最終的に導きます。フェイスフュージョンアルゴリズムは、ループ(グランドトゥルースのユーザーイメージ)イメージとテンプレートをさらに融合させることで、融合されたイメージがエッジ境界の安定化を実現し、最初の拡散段階で向上した出力を実現します。
  • ControlNetガイドの検証:LoRAモデルはControlNetフレームワークを使用してトレーニングされていなかったため、推論プロセスで使用するとLoRAモデルがアイデンティティを保持する能力に影響する可能性があります。EasyPhotoの汎化能力を向上させるため、フレームワークはControlNetフレームワークの影響を考慮し、異なる段階からのLoRAモデルを組み込みます。

初期拡散

最初の拡散ステージでは、テンプレート画像を使用して入力ユーザーIDに似た画像を生成します。入力画像は、ユーザー入力画像とテンプレート画像の融合であり、キャリブレーションされた顔マスクが入力マスクです。画像生成に対する制御をさらに増すため、EasyPhotoフレームワークは3つのControlNetユニットを統合します。最初のControlNetユニットは融合画像の制御に焦点を当て、2番目のControlNetユニットは融合画像の色を制御し、最後のControlNetユニットは置換画像のopenpose(リアルタイムの複数人の人間の姿勢制御)であり、テンプレート画像の顔の構造だけでなく、ユーザーの顔のアイデンティティも含まれています。

2番目の拡散

2番目の拡散ステージでは、顔の境界付近のアーティファクトを微調整し、画像内の特定の領域をマスクする柔軟性を提供することで、その領域内での生成の効果を向上させます。このステージでは、最初の拡散ステージから得られた出力画像をループ画像またはユーザーの画像の結果と融合することで、2番目の拡散ステージの入力画像を生成します。全体的に、2番目の拡散ステージは生成された画像の全体的な品質と詳細を向上させる重要な役割を果たします。

複数のユーザーID

EasyPhotoのハイライトの一つは、複数のユーザーIDを生成する機能です。以下の図は、EasyPhotoフレームワークにおける複数のユーザーIDの干渉プロセスのパイプラインを示しています。

複数のユーザーID生成をサポートするため、EasyPhotoフレームワークはまず干渉テンプレートで顔検出を行います。これらの干渉テンプレートは複数のマスクに分割され、各マスクには1つだけの顔が含まれ、画像の残りは白でマスクされるため、複数のユーザーID生成は個々のユーザーIDの生成に簡単なタスクに分割されます。フレームワークがユーザーID画像を生成したら、これらの画像は推論テンプレートに統合されます。これにより、テンプレート画像と生成された画像のシームレスな統合が実現され、高品質な画像が生成されます。

実験と結果

EasyPhotoフレームワークの性能を探るために、以下の図はEasyPhotoプラグインによって生成された画像であり、画像生成にはスタイルベースのSDモデルが使用されています。生成された画像はリアルであり、かなり正確です。

上記の画像はEasyPhotoプラグインによって生成されたものであり、スタイルベースのSDモデルが使用されています。観察されるように、生成された画像はリアルであり、かなり正確です。

上記に追加された画像は、Comic StyleベースのSDモデルを使用してEasyPhotoフレームワークによって生成されています。これらのコミック写真やリアルな写真は非常にリアルであり、ユーザーの要求や要件に基づいて入力画像に近いものです。

下記に追加された画像は、EasyPhotoフレームワークを使用してマルチパーソンテンプレートを使用して生成されています。はっきりとわかるように、生成された画像はクリアで正確であり、オリジナルの画像に似ています。

EasyPhotoの助けを借りれば、ユーザーはさまざまなAIポートレートを生成したり、保持されたテンプレートを使用して複数のユーザーIDを生成したり、SDモデルを使用して推論テンプレートを生成したりすることができます。上記で追加された画像は、EasyPhotoフレームワークの多様で高品質なAI画像を生成する能力を示しています。

結論

この記事では、AIポートレートと画像を生成するための新しいWebUIプラグインであるEasyPhotoについて話しました。EasyPhoto WebUIプラグインは、任意のテンプレートを使用してAIポートレートを生成し、現在のEasyPhoto WebUIの意味するところは、さまざまな写真スタイルと複数の修正をサポートしています。さらに、EasyPhotoの機能をさらに高めるために、ユーザーはSDXLモデルを使用してより満足度の高い、正確で多様な画像を生成する柔軟性があります。EasyPhotoフレームワークは、高品質な画像を出力する安定したディフュージョンベースモデルと事前学習されたLoRAモデルを利用しています。

画像生成に興味がありますか?私たちはまた、技術的な専門知識を必要とせずに使用しやすい最高のAIヘッドショットジェネレーターおよび最高のAIイメージジェネレーターのリストも提供しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ

ジョナサン・ダムブロットは、Cranium AIのCEO兼共同創業者ですCranium AIは、サイバーセキュリティおよびデータサイエンスチ...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...