「安定拡散を使用したハイパーリアルな顔を生成する3つの方法」

「3つの方法で安定拡散を駆使してハイパーリアルな顔を生成する」

 

人々がAI画像生成を使用してどのようにハイパーリアルな顔を作り出しているのか、自分の試みがグリッチとアーティファクトでいっぱいで明らかに偽物に見えるのにお困りではありませんか?プロンプトや設定を調整してみたけど、まだ他の人が生み出している品質には及ばないようです。何が間違っているのでしょうか?

このブログ記事では、安定的拡散を使用してハイパーリアルな人間の顔を生成するための3つの主要なテクニックを紹介します。まず、ベースモデルを使用して画像を生成するためのプロンプトエンジニアリングの基礎をカバーします。次に、Stable Diffusion XLモデルへのアップグレードにより、パラメータとトレーニングの向上によって画像の品質が大幅に向上する方法を探ります。最後に、高品質の肖像画生成に特化したカスタムモデルを紹介します。

 

1. プロンプトエンジニアリング

 

まず、リアルな顔を生成するためのポジティブなプロンプトとネガティブなプロンプトの書き方を学びます。Hugging Face Spacesで利用可能なStable Diffusionバージョン2.1デモを使用します。これは無料で、何もセットアップすることなくすぐに始めることができます。

リンク:hf.co/spaces/stabilityai/stable-diffusion

ポジティブなプロンプトを作成する際には、必要な詳細や画像のスタイルを含めるようにしてください。この場合、道を歩く若い女性の画像を生成したいとします。一般的なネガティブなプロンプトを使用しますが、画像に繰り返しのミスを避けるために追加のキーワードを追加することもできます。

ポジティブなプロンプト:「20代半ばの若い女性、街を歩く、カメラに直接見つめる、自信に満ちた友好的な表情、モダンでおしゃれな服装、都市の街の背景、明るく晴れた日の光、鮮やかな色彩」

ネガティブなプロンプト:「ゆがんだ、醜い、悪い、未熟、アニメ、3D、ペイント、B&W、イラスト、最低品質、低品質」

  

良いスタートを切りました。画像は正確ですが、画像の品質はもう少し向上させることができます。プロンプトを試してみることもできますが、これがベースモデルから得られる最高のものです。

 

2. Stable Diffusion XL

 

高品質の画像を生成するために、Stable Diffusion XL(SDXL)モデルを使用します。これは、ベースモデルを使用して潜在的な要素を生成し、リファイナーを使用して詳細で正確な画像を生成することで実現しています。

リンク:hf.co/spaces/hysts/SD-XL

画像を生成する前に、ページをスクロールダウンして「高度なオプション」を開きます。ネガティブなプロンプトを追加し、シードを設定して、最良の画像品質を実現するためにリファイナーを適用します。

  

それから、以前のプロンプトと同じものを書きますが、少し変更します。一般的な若い女性ではなく、インドの若い女性の画像を生成します。

  

これは非常に改善された結果です。顔の特徴は完璧です。偏見をチェックし、結果を比較するために他の人種の生成を試みてみましょう。

  

リアルな顔が生成されましたが、すべての画像にはInstagramフィルターがかかっています。通常、実際の人生では肌は滑らかではありません。にきび、傷跡、そばかす、しわがあります。

 

3. CivitAI: RealVisXL V2.0

 

このパートでは、マークとリアルな肌を持つ詳細な顔を生成します。そのために、高品質なポートレート向けに調整されたCivitAI(RealVisXL V2.0)のカスタムモデルを使用します。

リンク: civitai.com/models/139562/realvisxl-v20

「作成」ボタンをクリックしてオンラインでモデルを使用するか、Stable Diffusion WebUIを使用してローカルにダウンロードすることができます。

  

まず、モデルをダウンロードしてファイルをStable Diffusion WebUIモデルディレクトリに移動します:C:\WebUI\webui\models\Stable-diffusion。

WebUI上でモデルを表示するには、更新ボタンを押し、その後「realvisxl20…」モデルチェックポイントを選択する必要があります。

  

同じポジティブとネガティブのプロンプトを書いて、高品質な1024×1024の画像を生成することから始めましょう。

  

画像は完璧に見えます。カスタムモデルのすべての利点を活かすためには、プロンプトを変更する必要があります。

  

新しいポジティブとネガティブのプロンプトは、モデルページを下にスクロールして気に入ったリアルな画像をクリックすることで取得できます。CivitAIの画像にはポジティブとネガティブのプロンプトと高度なステアリングが付属しています。

ポジティブプロンプト:「インドの若い女性の画像、集中、決意、シュール、ダイナミックポーズ、超高解像度、シャープネステクスチャ、高い詳細度のRAW写真、詳細な顔、浅い被写界深度、シャープな目、(リアルな肌質:1.2)、明るい肌、一眼レフカメラ、フィルムの粒子」

ネガティブプロンプト:「(最低品質、低品質、イラスト、3D、2D、絵、漫画、スケッチ)、開いた口」

  

インドの女性の詳細な画像があります。これはベースのSDXLモデルに比べて改善されたバージョンです。

  

さまざまな民族の比較のためにさらに3つの画像を生成しました。結果は驚くべきもので、肌のマーク、多孔質な肌、正確な特徴を含んでいます。

 

結論

 

生成アートの進歩は、近い将来、本物と合成された画像を区別するのが困難になるレベルに達するでしょう。これは、多様な実世界のデータでトレーニングされたカスタムモデルを活用して、シンプルなテキストプロンプトから高度にリアリスティックなメディアを誰でも作成できる持続可能な未来を示唆しています。急速な進歩は興味深いポテンシャルを意味しており、もしかしたらいつか、自身の容姿と話し方を再現した写真のような写真現実的なビデオを生成するのは、記述的なプロンプトをタイプするだけの簡単なことかもしれません。

この投稿では、プロンプトエンジニアリング、高度な安定デザインモデル、および高い精度とリアリティのある顔を生成するためのカスタムチューニングモデルについて学びました。さらに良い結果を得たい場合は、civitai.comで利用可能なさまざまな高品質モデルを探索することをお勧めします。

****[Abid Ali Awan](https://www.polywork.com/kingabzpro)****@1abidaliawan)は、機械学習モデルの構築が好きな認定データサイエンティストです。現在、彼はコンテンツ作成と機械学習およびデータサイエンス技術に関する技術ブログの執筆に力を入れています。Abidはテクノロジーマネジメントの修士号と電気通信工学の学士号を持っています。彼のビジョンは、メンタルヘルスの問題に苦しむ学生向けにグラフニューラルネットワークを利用したAI製品を開発することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...