ハイパーヒューマンに会ってください:潜在的な構造拡散を用いたハイパーリアルな人間生成のための新しいAIフレームワーク

ハイパーヒューマンと出逢おう:潜在的な構造拡散を活用した新たなAIフレームワークによるハイパーリアルな人間生成

ユーザーが指定した条件(テキストやポーズなど)に基づいて超リアルな人間のイメージを生成することは、画像アニメーションやバーチャルな試着など、さまざまなアプリケーションにおいて意義深いものです。コントローラブルな人間の画像生成のタスクを探求するために、さまざまな取り組みが行われてきました。初期の手法は、再構成の方法として変分オートエンコーダ(VAE)に依存するか、生成敵対的ネットワーク(GAN)を介してリアリズムを向上させました。いくつかの手法によって高品質の画像の生成が行われているにもかかわらず、不安定なトレーニングや限られたモデルの容量などの課題があり、小規模なデータセットでのみ動作し、多様性が低いという制約がありました。

拡散モデル(DM)の最近の登場は、現実的な合成において新しいパラダイムを導入し、生成AIにおける主要なアーキテクチャとなりました。しかし、Stable DiffusionやDALL·E 2などのモデルのような模範的なテキストからイメージへのモデルは、腕や足、自然なポーズなどの一貫した解剖学を持つ人間のイメージを作成するのに苦労しています。主な課題は、人間形態の非剛性変形であり、テキストプロンプトだけでは難しく描写するのが難しい構造情報が必要になることです。

ControlNetやT2I-Adapterなどの最近の研究では、学習可能なブランチを導入して事前に学習したDM(Stable Diffusionなど)を適応制御することで、画像生成に対する構造的な制御を可能にしようとしています。ただし、これらの手法はメインブランチと補助ブランチ間の特徴の不一致から悩まされ、制御信号(ポーズマップなど)と生成された画像の一貫性が欠けています。HumanSDは、チャネルごとの連結によって拡散U-Netにボディスケルトンを直接入力することで、この問題に対処します。ただし、この手法は多様性に乏しい芸術的なスタイルの画像の生成にとどまります。また、人間のコンテンツはポーズ制御のみで合成され、深度マップや法線マップなどの他の重要な構造情報は無視されます。

本記事で報告されている研究では、高いリアリズムと多様なレイアウトを持つ野生の人間のイメージを生成するための統一されたフレームワーク「HyperHuman」を提案しています。その概要は以下の図に示されています。

鍵となる洞察は、粗いレベルのボディスケルトンから細かい空間幾何学まで、人間のイメージの本質的な構造的性質を認識することです。明示的な外観と潜在的な構造との間のこのような相関をキャプチャすることは、一貫性のある自然な人間のイメージを生成するために不可欠です。本論文では、HumanVerseと呼ばれる340万枚の野生の人間のイメージと包括的な注釈が含まれた大規模な人間中心のデータセットを作成しました。このデータセットを基に、超リアルなコントロール可能な人間の画像生成のために2つのモジュールが設計されています:潜在的な構造拡散モデルと構造ガイドされたリファイナー。前者は事前に学習された拡散バックボーンにRGB、深度、法線の側面のノイズ除去を同時に行い、ノイズ除去されたテクスチャと構造の間の空間的な整列を保証します。

このような細心の設計により、画像の外観、空間的な関係、およびジオメトリのモデリングが統一されたネットワーク内で共同して行われます。各ブランチはお互いを補完し、構造的な意識とテクスチャの豊かさを組み込んでいます。強化されたノイズスケジュールにより、低周波情報の漏洩がなくなり、ローカル領域の均一な深度と法線値が保たれます。各ブランチに同じタイムステップを使用することで学習を高め、特徴の融合を容易にします。空間的に整列された構造マップにより、構造ガイドされたリファイナーは詳細な高解像度画像の生成に向けた予測された条件を構成します。また、2段階の生成パイプラインにおけるエラー蓄積の影響を軽減するために、ロバストなコンディショニングスキームが設計されています。

次に、最先端の手法との比較結果が以下に報告されています。

各行の最初の4×4グリッドには、HyperHumanによって計算された入力のスケルトン、共同で除去された法線、深度、および粗いRGB(512×512)が含まれています。

これは、高いリアリズムと多様なレイアウトを持つ野生の人間の画像を生成するための革新的なAIフレームワークであるHyperHumanの概要でした。興味があり、さらに詳しく知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ソフトウェア開発の進化:ウォーターフォールからアジャイル、デボップスそして更に先へ

「ソフトウェア開発の変革に飛び込み、アジャイルとデボップスを理解し、AIやローコードプラットフォームなどの将来のトレン...

人工知能

「AIとともに観測性の潜在能力を解き放つ」

オブザーブの統合観測性プラットフォームは、先進的なAIを活用して、メトリクス、トレース、ログを一つにまとめることで複雑...

機械学習

「リトリーバル増強生成によるジェネラティブAIの最適化:アーキテクチャ、アルゴリズム、およびアプリケーションの概要」

この記事はAIの専門家を対象にし、AIのアーキテクチャー、トレーニング、そして応用に焦点を当てて検討します

機械学習

PyTorchを使った効率的な画像セグメンテーション:Part 2

これは、PyTorchを使用してディープラーニング技術を使ってゼロから画像セグメンテーションをステップバイステップで実装する...

人工知能

レオナルド・ダ・ヴィンチ:天才の心の内部

世界中の28の機関が力を合わせ、レオナルド・ダ・ヴィンチの比類のない遺産を紹介し、芸術、科学、AIイノベーションを融合させる

AI研究

「MITのインドの学生が声を必要としない会話デバイスを開発」

魅力的な進展として、名門マサチューセッツ工科大学(MIT)の学生が革新的なAI対応デバイス、AlterEgoを紹介しました。AlterE...