ハイパーヒューマンに会ってください:潜在的な構造拡散を用いたハイパーリアルな人間生成のための新しいAIフレームワーク

ハイパーヒューマンと出逢おう:潜在的な構造拡散を活用した新たなAIフレームワークによるハイパーリアルな人間生成

ユーザーが指定した条件(テキストやポーズなど)に基づいて超リアルな人間のイメージを生成することは、画像アニメーションやバーチャルな試着など、さまざまなアプリケーションにおいて意義深いものです。コントローラブルな人間の画像生成のタスクを探求するために、さまざまな取り組みが行われてきました。初期の手法は、再構成の方法として変分オートエンコーダ(VAE)に依存するか、生成敵対的ネットワーク(GAN)を介してリアリズムを向上させました。いくつかの手法によって高品質の画像の生成が行われているにもかかわらず、不安定なトレーニングや限られたモデルの容量などの課題があり、小規模なデータセットでのみ動作し、多様性が低いという制約がありました。

拡散モデル(DM)の最近の登場は、現実的な合成において新しいパラダイムを導入し、生成AIにおける主要なアーキテクチャとなりました。しかし、Stable DiffusionやDALL·E 2などのモデルのような模範的なテキストからイメージへのモデルは、腕や足、自然なポーズなどの一貫した解剖学を持つ人間のイメージを作成するのに苦労しています。主な課題は、人間形態の非剛性変形であり、テキストプロンプトだけでは難しく描写するのが難しい構造情報が必要になることです。

ControlNetやT2I-Adapterなどの最近の研究では、学習可能なブランチを導入して事前に学習したDM(Stable Diffusionなど)を適応制御することで、画像生成に対する構造的な制御を可能にしようとしています。ただし、これらの手法はメインブランチと補助ブランチ間の特徴の不一致から悩まされ、制御信号(ポーズマップなど)と生成された画像の一貫性が欠けています。HumanSDは、チャネルごとの連結によって拡散U-Netにボディスケルトンを直接入力することで、この問題に対処します。ただし、この手法は多様性に乏しい芸術的なスタイルの画像の生成にとどまります。また、人間のコンテンツはポーズ制御のみで合成され、深度マップや法線マップなどの他の重要な構造情報は無視されます。

本記事で報告されている研究では、高いリアリズムと多様なレイアウトを持つ野生の人間のイメージを生成するための統一されたフレームワーク「HyperHuman」を提案しています。その概要は以下の図に示されています。

鍵となる洞察は、粗いレベルのボディスケルトンから細かい空間幾何学まで、人間のイメージの本質的な構造的性質を認識することです。明示的な外観と潜在的な構造との間のこのような相関をキャプチャすることは、一貫性のある自然な人間のイメージを生成するために不可欠です。本論文では、HumanVerseと呼ばれる340万枚の野生の人間のイメージと包括的な注釈が含まれた大規模な人間中心のデータセットを作成しました。このデータセットを基に、超リアルなコントロール可能な人間の画像生成のために2つのモジュールが設計されています:潜在的な構造拡散モデルと構造ガイドされたリファイナー。前者は事前に学習された拡散バックボーンにRGB、深度、法線の側面のノイズ除去を同時に行い、ノイズ除去されたテクスチャと構造の間の空間的な整列を保証します。

このような細心の設計により、画像の外観、空間的な関係、およびジオメトリのモデリングが統一されたネットワーク内で共同して行われます。各ブランチはお互いを補完し、構造的な意識とテクスチャの豊かさを組み込んでいます。強化されたノイズスケジュールにより、低周波情報の漏洩がなくなり、ローカル領域の均一な深度と法線値が保たれます。各ブランチに同じタイムステップを使用することで学習を高め、特徴の融合を容易にします。空間的に整列された構造マップにより、構造ガイドされたリファイナーは詳細な高解像度画像の生成に向けた予測された条件を構成します。また、2段階の生成パイプラインにおけるエラー蓄積の影響を軽減するために、ロバストなコンディショニングスキームが設計されています。

次に、最先端の手法との比較結果が以下に報告されています。

各行の最初の4×4グリッドには、HyperHumanによって計算された入力のスケルトン、共同で除去された法線、深度、および粗いRGB(512×512)が含まれています。

これは、高いリアリズムと多様なレイアウトを持つ野生の人間の画像を生成するための革新的なAIフレームワークであるHyperHumanの概要でした。興味があり、さらに詳しく知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「生成AIにおけるニューラル微分方程式の探索」

はじめに 生成AIは大きく進化し、新しい多様なデータを生成するためのさまざまな技術が含まれるようになりました。GANやVAEな...

機械学習

Google AIは、アクティブノイズキャンセリング(ANC)ヘッドフォンのための人工知能搭載の革新的な心臓モニタリングモダリティである音響脈波計(APG)を導入します

コンシューマーエレクトロニクスと健康技術の分野において、活発なノイズキャンセリング(ANC)ウェアラブルに健康モニタリン...

AIニュース

コールセンターにおけるAIソフトウェアが顧客サービスを革命化します

人工知能(AI)技術の急速な進歩により、チャットボットの導入を特に受けた顧客サービスとサポートに変革的なシフトがもたら...

データサイエンス

「生成AIの組織化:データサイエンスチームから得た5つの教訓」

「経営陣が曖昧な約束をした後、新しいGen AIの機能が組織全体に組み込まれることを利害関係者に約束した後、あなたのタイガ...

AIニュース

このAIニュースレターは、あなたが必要とするすべてです#74

今週は、残念ながらOpenAIの連続する出来事に注目が集まり、いくつかの興味深い新しいモデルの発表が overshadow されてしま...

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...