テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

テンセントAIラボが進化する条件拡散モデル(PCDM)を導入!3つのステージを踏みながら、ターゲットとソースのポーズを持つ人物イメージ間の差を次第に縮める

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな進歩が見られています。この技術は、電子商取引のコンテンツ生成において広範な応用があり、人物再識別などの下流のタスクの改善にも役立ちます。しかし、ソースとターゲットのポーズの不一致によるいくつかの課題があります。

研究者たちは、ポーズガイドの人物画像合成の課題を解決するために、さまざまなGANベース、VAEベース、フローベースの手法を試みてきました。GANベースのアプローチは、安定したトレーニングを必要とし、非現実的な結果を生み出す場合があります。VAEベースの手法は、詳細をぼかしたり、ポーズを誤って配置する場合があります。一方、フローベースのモデルはアーティファクトを導入する可能性があります。一部の手法では解析マップを使用していますが、スタイルやテクスチャに苦労することがあります。拡散モデルは有望ですが、改善された結果のためにはポーズの不一致に関連する課題を解決する必要があります。

これらの課題に取り組むために、最近公開された論文ではProgressive Conditional Diffusion Models(PCDMs)が紹介されており、高品質な画像を段階的に生成することができます。予測、密な対応の確立、およびテクスチャと詳細の整合性を向上させるための画像の改善の3つの段階を経て、高品質な画像を生成します。

提案された手法は、ポーズガイドの人物画像合成の中で重要な貢献を提供します。ソースの画像の外観とターゲットのポーズの座標の整合性を明らかにすることで、単純な事前条件の拡散モデルを導入し、グローバルなターゲット画像特徴を生成します。画像の不整合を整列させる画期的なインペイント条件付き拡散モデルは、ソースとターゲットの画像とそれぞれのポーズが画像、ポーズ、特徴の複数のレベルで整列するようにします。さらに、改善条件付き拡散モデルによって画像の品質と忠実度が向上します。

PCDMは、全体の画像合成プロセスに貢献する3つのキーステージで構成されています:

1) 事前条件付き拡散モデル:最初のステージでは、モデルがポーズ座標と画像の外観の整合関係を活用して、ターゲット画像のグローバルな特徴を予測します。モデルは、ソースとターゲットの画像とソース画像のポーズに応じたトランスフォーマーネットワークを使用します。CLIPイメージエンコーダから得られたグローバル画像埋め込みは、ターゲット画像の合成をガイドします。このステージの損失関数は、モデルがノイズのない画像埋め込みを直接予測するように促します。このステージは、特徴レベルでソースとターゲットの画像間のギャップを埋める役割を果たします。

2) インペイント条件付き拡散モデル:インペイント条件付き拡散モデルは、2番目のステージで導入されます。前のステージで得られたグローバルな特徴を利用して、ソースとターゲットの画像間の密な対応を確立し、不整合のある画像から画像への生成タスクを整列させます。このステージでは、画像、ポーズ、特徴を含む複数のレベルでソースとターゲットの画像およびそれぞれのポーズが整列することを保証します。これは、ソースとターゲットの画像間の整列を改善し、現実的な結果を生成するために重要です。

3) 修正条件付き拡散モデル:前の段階で予備的な粗いターゲット画像を生成した後、修正条件付き拡散モデルが画像の品質と詳細のテクスチャを向上させます。このステージでは、前段階で生成された粗い画像を条件として使用して、画像の忠実度とテクスチャの整合性をさらに向上させます。このステージでは、最初の畳み込み層を修正し、ソース画像から特徴を抽出するために画像エンコーダを使用します。クロスアテンションメカニズムは、ネットワークにテクスチャ特徴を注入し、テクスチャの修復と詳細の強化を行います。

この手法は、一連の公開データセットによる包括的な実験によって検証され、定量的なメトリック(SSIM、LPIPS、FID)を介して競争力のあるパフォーマンスを発揮します。ユーザースタディは、メソッドの有効性を更に検証しました。割愛研究は、PCDMsの個々のステージの影響を調査し、その重要性を明らかにしました。最後に、PCDMの人物再識別への適用可能性が示され、ベースライン手法と比較して改善された再識別パフォーマンスを示しました。

まとめると、PCDMはポーズガイドの人物画像合成における顕著な飛躍を示しています。マルチステージアプローチを使用することで、PCDMは整列とポーズの整合性の問題に効果的に対処し、高品質で現実的な画像を生成します。実験は、パフォーマンスの優れた定量的なメトリクスとユーザースタディによるその優れたパフォーマンスを示し、人物再識別タスクへの適用可能性はその実用的な有用性をさらに強調しています。PCDMは、ポーズガイド画像合成のフィールドを進歩させる幅広い応用のための有望な解決策です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

エッジコンピューティングにおけるAI:リアルタイムを向上させるアルゴリズムの実装

エッジコンピューティングは、IoTデバイス、センサー、ネットワークスイッチなどのデータソースの近くに計算を配置する革新的...

データサイエンス

『FastSpeech:論文の概要と実装』

2019年、FastSpeechはニューラルテキスト音声変換のフロンティアを推し進め、推論速度を大幅に改善しながら、単語の繰り返し...

人工知能

カートゥーンキャラクターの中間プロンプト

Midjourneyは、芸術的なスキルや背景がなくても、漫画キャラクターを作成するのに役立つ素晴らしいツールです

データサイエンス

ジェネレーティブAIツールを使用する際にプライバシーを保護するための6つの手順

イントロダクション 生成型AIツールの出現は、興奮と懸念を引き起こしました。これらのツールは私たちの生活と仕事を革新する...

データサイエンス

「Microsoft AIが意図せずに秘密の情報を公開し、3年間にわたって38TBの機密データへのアクセス権を提供しました」

「過剰供給されたSASトークンが、約3年間にわたってGitHub上で38TBもの大量の個人データを公開していた物語」

データサイエンス

「ワイルドワイルドRAG…(パート1)」

「RAG(Retrieval-Augmented Generation)は、外部の知識源を取り込むことで言語モデルによって生成された応答の品質を向上さ...