テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます
テンセントAIラボが進化する条件拡散モデル(PCDM)を導入!3つのステージを踏みながら、ターゲットとソースのポーズを持つ人物イメージ間の差を次第に縮める
ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな進歩が見られています。この技術は、電子商取引のコンテンツ生成において広範な応用があり、人物再識別などの下流のタスクの改善にも役立ちます。しかし、ソースとターゲットのポーズの不一致によるいくつかの課題があります。
研究者たちは、ポーズガイドの人物画像合成の課題を解決するために、さまざまなGANベース、VAEベース、フローベースの手法を試みてきました。GANベースのアプローチは、安定したトレーニングを必要とし、非現実的な結果を生み出す場合があります。VAEベースの手法は、詳細をぼかしたり、ポーズを誤って配置する場合があります。一方、フローベースのモデルはアーティファクトを導入する可能性があります。一部の手法では解析マップを使用していますが、スタイルやテクスチャに苦労することがあります。拡散モデルは有望ですが、改善された結果のためにはポーズの不一致に関連する課題を解決する必要があります。
これらの課題に取り組むために、最近公開された論文ではProgressive Conditional Diffusion Models(PCDMs)が紹介されており、高品質な画像を段階的に生成することができます。予測、密な対応の確立、およびテクスチャと詳細の整合性を向上させるための画像の改善の3つの段階を経て、高品質な画像を生成します。
- 教育と学習の経験を向上させるために、生成的AIアプリケーションを開発する
- 役に立つセンサーがAI in a Boxを立ち上げる
- このAIの論文は、インコンテキスト学習の秘密を解き明かすものです:言語モデルがベクトルマジックに関数をエンコードする方法
提案された手法は、ポーズガイドの人物画像合成の中で重要な貢献を提供します。ソースの画像の外観とターゲットのポーズの座標の整合性を明らかにすることで、単純な事前条件の拡散モデルを導入し、グローバルなターゲット画像特徴を生成します。画像の不整合を整列させる画期的なインペイント条件付き拡散モデルは、ソースとターゲットの画像とそれぞれのポーズが画像、ポーズ、特徴の複数のレベルで整列するようにします。さらに、改善条件付き拡散モデルによって画像の品質と忠実度が向上します。
PCDMは、全体の画像合成プロセスに貢献する3つのキーステージで構成されています:
1) 事前条件付き拡散モデル:最初のステージでは、モデルがポーズ座標と画像の外観の整合関係を活用して、ターゲット画像のグローバルな特徴を予測します。モデルは、ソースとターゲットの画像とソース画像のポーズに応じたトランスフォーマーネットワークを使用します。CLIPイメージエンコーダから得られたグローバル画像埋め込みは、ターゲット画像の合成をガイドします。このステージの損失関数は、モデルがノイズのない画像埋め込みを直接予測するように促します。このステージは、特徴レベルでソースとターゲットの画像間のギャップを埋める役割を果たします。
2) インペイント条件付き拡散モデル:インペイント条件付き拡散モデルは、2番目のステージで導入されます。前のステージで得られたグローバルな特徴を利用して、ソースとターゲットの画像間の密な対応を確立し、不整合のある画像から画像への生成タスクを整列させます。このステージでは、画像、ポーズ、特徴を含む複数のレベルでソースとターゲットの画像およびそれぞれのポーズが整列することを保証します。これは、ソースとターゲットの画像間の整列を改善し、現実的な結果を生成するために重要です。
3) 修正条件付き拡散モデル:前の段階で予備的な粗いターゲット画像を生成した後、修正条件付き拡散モデルが画像の品質と詳細のテクスチャを向上させます。このステージでは、前段階で生成された粗い画像を条件として使用して、画像の忠実度とテクスチャの整合性をさらに向上させます。このステージでは、最初の畳み込み層を修正し、ソース画像から特徴を抽出するために画像エンコーダを使用します。クロスアテンションメカニズムは、ネットワークにテクスチャ特徴を注入し、テクスチャの修復と詳細の強化を行います。
この手法は、一連の公開データセットによる包括的な実験によって検証され、定量的なメトリック(SSIM、LPIPS、FID)を介して競争力のあるパフォーマンスを発揮します。ユーザースタディは、メソッドの有効性を更に検証しました。割愛研究は、PCDMsの個々のステージの影響を調査し、その重要性を明らかにしました。最後に、PCDMの人物再識別への適用可能性が示され、ベースライン手法と比較して改善された再識別パフォーマンスを示しました。
まとめると、PCDMはポーズガイドの人物画像合成における顕著な飛躍を示しています。マルチステージアプローチを使用することで、PCDMは整列とポーズの整合性の問題に効果的に対処し、高品質で現実的な画像を生成します。実験は、パフォーマンスの優れた定量的なメトリクスとユーザースタディによるその優れたパフォーマンスを示し、人物再識別タスクへの適用可能性はその実用的な有用性をさらに強調しています。PCDMは、ポーズガイド画像合成のフィールドを進歩させる幅広い応用のための有望な解決策です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル
- 「ワンダー3Dに会おう:単一視点画像から高品質のテクスチャメッシュを効率的に生成する革新的な人工知能手法」
- ジナAIは、「jina-embeddings-v2」を紹介します 世界初の8kオープンソースのテキスト埋め込みモデル
- チューリングのミル:AIスーパーコンピューターが英国の経済エンジンを加速
- 「言語の力を解き放つ:NVIDIAのアナマライ・チョッカリンガムがLLMの台頭について語る」
- 「コルーチンの実行のマスタリング:UnityにおけるYield、Flow、そして実用例」となります
- 「小規模言語モデルにおける意図の調整の解除:Zephyr-7Bの突破を目指した、蒸留された教師あり微調整とAIフィードバックの包括的ガイド」