テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

テンセントAIラボが進化する条件拡散モデル(PCDM)を導入!3つのステージを踏みながら、ターゲットとソースのポーズを持つ人物イメージ間の差を次第に縮める

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな進歩が見られています。この技術は、電子商取引のコンテンツ生成において広範な応用があり、人物再識別などの下流のタスクの改善にも役立ちます。しかし、ソースとターゲットのポーズの不一致によるいくつかの課題があります。

研究者たちは、ポーズガイドの人物画像合成の課題を解決するために、さまざまなGANベース、VAEベース、フローベースの手法を試みてきました。GANベースのアプローチは、安定したトレーニングを必要とし、非現実的な結果を生み出す場合があります。VAEベースの手法は、詳細をぼかしたり、ポーズを誤って配置する場合があります。一方、フローベースのモデルはアーティファクトを導入する可能性があります。一部の手法では解析マップを使用していますが、スタイルやテクスチャに苦労することがあります。拡散モデルは有望ですが、改善された結果のためにはポーズの不一致に関連する課題を解決する必要があります。

これらの課題に取り組むために、最近公開された論文ではProgressive Conditional Diffusion Models(PCDMs)が紹介されており、高品質な画像を段階的に生成することができます。予測、密な対応の確立、およびテクスチャと詳細の整合性を向上させるための画像の改善の3つの段階を経て、高品質な画像を生成します。

提案された手法は、ポーズガイドの人物画像合成の中で重要な貢献を提供します。ソースの画像の外観とターゲットのポーズの座標の整合性を明らかにすることで、単純な事前条件の拡散モデルを導入し、グローバルなターゲット画像特徴を生成します。画像の不整合を整列させる画期的なインペイント条件付き拡散モデルは、ソースとターゲットの画像とそれぞれのポーズが画像、ポーズ、特徴の複数のレベルで整列するようにします。さらに、改善条件付き拡散モデルによって画像の品質と忠実度が向上します。

PCDMは、全体の画像合成プロセスに貢献する3つのキーステージで構成されています:

1) 事前条件付き拡散モデル:最初のステージでは、モデルがポーズ座標と画像の外観の整合関係を活用して、ターゲット画像のグローバルな特徴を予測します。モデルは、ソースとターゲットの画像とソース画像のポーズに応じたトランスフォーマーネットワークを使用します。CLIPイメージエンコーダから得られたグローバル画像埋め込みは、ターゲット画像の合成をガイドします。このステージの損失関数は、モデルがノイズのない画像埋め込みを直接予測するように促します。このステージは、特徴レベルでソースとターゲットの画像間のギャップを埋める役割を果たします。

2) インペイント条件付き拡散モデル:インペイント条件付き拡散モデルは、2番目のステージで導入されます。前のステージで得られたグローバルな特徴を利用して、ソースとターゲットの画像間の密な対応を確立し、不整合のある画像から画像への生成タスクを整列させます。このステージでは、画像、ポーズ、特徴を含む複数のレベルでソースとターゲットの画像およびそれぞれのポーズが整列することを保証します。これは、ソースとターゲットの画像間の整列を改善し、現実的な結果を生成するために重要です。

3) 修正条件付き拡散モデル:前の段階で予備的な粗いターゲット画像を生成した後、修正条件付き拡散モデルが画像の品質と詳細のテクスチャを向上させます。このステージでは、前段階で生成された粗い画像を条件として使用して、画像の忠実度とテクスチャの整合性をさらに向上させます。このステージでは、最初の畳み込み層を修正し、ソース画像から特徴を抽出するために画像エンコーダを使用します。クロスアテンションメカニズムは、ネットワークにテクスチャ特徴を注入し、テクスチャの修復と詳細の強化を行います。

この手法は、一連の公開データセットによる包括的な実験によって検証され、定量的なメトリック(SSIM、LPIPS、FID)を介して競争力のあるパフォーマンスを発揮します。ユーザースタディは、メソッドの有効性を更に検証しました。割愛研究は、PCDMsの個々のステージの影響を調査し、その重要性を明らかにしました。最後に、PCDMの人物再識別への適用可能性が示され、ベースライン手法と比較して改善された再識別パフォーマンスを示しました。

まとめると、PCDMはポーズガイドの人物画像合成における顕著な飛躍を示しています。マルチステージアプローチを使用することで、PCDMは整列とポーズの整合性の問題に効果的に対処し、高品質で現実的な画像を生成します。実験は、パフォーマンスの優れた定量的なメトリクスとユーザースタディによるその優れたパフォーマンスを示し、人物再識別タスクへの適用可能性はその実用的な有用性をさらに強調しています。PCDMは、ポーズガイド画像合成のフィールドを進歩させる幅広い応用のための有望な解決策です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「JAXにおけるディープ強化学習の優しい入門」

最近の強化学習(RL)の進歩、例えばWaymoの自律タクシーやDeepMindの人間を超えたチェスプレイヤーエージェントなどは、ニュ...

AI研究

腫瘍の起源の解読:MITとDana-Farber研究者が機械学習を活用して遺伝子配列を分析する方法

MITとDana-Farber Cancer Instituteの画期的な共同研究により、機械学習の力ががん治療における困難な課題に取り組むために活...

機械学習

「MosaicMLは、AIユーザーが精度を向上し、コストを削減し、時間を節約するのを支援します」

スタートアップのMosaicMLは、大規模なAIモデルの簡単なトレーニングと展開のためのツールを提供することにより、AIコミュニ...

データサイエンス

「高度な生成型AIの探求 | 条件付きVAEs」

はじめに この記事へようこそ。ここでは、生成AIのエキサイティングな世界を探求します。主にConditional Variational Autoen...

人工知能

AIを使用して画像をビデオに変換する(Runway 2 チュートリアル)

RunwayMLは、ユーザーが静止画像を数秒でビデオに変換することができるAIツールです

人工知能

「仕事の未来:スキルアップしないと取り残される」

AIの仕事への二重の影響、再スキル化の重要性、および労働者、企業、政府などに関連する倫理的な課題を探求してください