ハイパーヒューマンに会ってください:潜在的な構造拡散を用いたハイパーリアルな人間生成のための新しいAIフレームワーク
ハイパーヒューマンと出逢おう:潜在的な構造拡散を活用した新たなAIフレームワークによるハイパーリアルな人間生成
ユーザーが指定した条件(テキストやポーズなど)に基づいて超リアルな人間のイメージを生成することは、画像アニメーションやバーチャルな試着など、さまざまなアプリケーションにおいて意義深いものです。コントローラブルな人間の画像生成のタスクを探求するために、さまざまな取り組みが行われてきました。初期の手法は、再構成の方法として変分オートエンコーダ(VAE)に依存するか、生成敵対的ネットワーク(GAN)を介してリアリズムを向上させました。いくつかの手法によって高品質の画像の生成が行われているにもかかわらず、不安定なトレーニングや限られたモデルの容量などの課題があり、小規模なデータセットでのみ動作し、多様性が低いという制約がありました。
拡散モデル(DM)の最近の登場は、現実的な合成において新しいパラダイムを導入し、生成AIにおける主要なアーキテクチャとなりました。しかし、Stable DiffusionやDALL·E 2などのモデルのような模範的なテキストからイメージへのモデルは、腕や足、自然なポーズなどの一貫した解剖学を持つ人間のイメージを作成するのに苦労しています。主な課題は、人間形態の非剛性変形であり、テキストプロンプトだけでは難しく描写するのが難しい構造情報が必要になることです。
ControlNetやT2I-Adapterなどの最近の研究では、学習可能なブランチを導入して事前に学習したDM(Stable Diffusionなど)を適応制御することで、画像生成に対する構造的な制御を可能にしようとしています。ただし、これらの手法はメインブランチと補助ブランチ間の特徴の不一致から悩まされ、制御信号(ポーズマップなど)と生成された画像の一貫性が欠けています。HumanSDは、チャネルごとの連結によって拡散U-Netにボディスケルトンを直接入力することで、この問題に対処します。ただし、この手法は多様性に乏しい芸術的なスタイルの画像の生成にとどまります。また、人間のコンテンツはポーズ制御のみで合成され、深度マップや法線マップなどの他の重要な構造情報は無視されます。
- 「SnapLogicがAmazon Bedrockを使用してテキストからパイプラインアプリケーションを構築し、ビジネスの意図を行動に変換します」
- アイドルアプリの自動シャットダウンを使用して、Amazon SageMaker Canvasのコストを最適化する
- 「アマゾンベッドロックを使った商品説明の自動生成」
本記事で報告されている研究では、高いリアリズムと多様なレイアウトを持つ野生の人間のイメージを生成するための統一されたフレームワーク「HyperHuman」を提案しています。その概要は以下の図に示されています。
鍵となる洞察は、粗いレベルのボディスケルトンから細かい空間幾何学まで、人間のイメージの本質的な構造的性質を認識することです。明示的な外観と潜在的な構造との間のこのような相関をキャプチャすることは、一貫性のある自然な人間のイメージを生成するために不可欠です。本論文では、HumanVerseと呼ばれる340万枚の野生の人間のイメージと包括的な注釈が含まれた大規模な人間中心のデータセットを作成しました。このデータセットを基に、超リアルなコントロール可能な人間の画像生成のために2つのモジュールが設計されています:潜在的な構造拡散モデルと構造ガイドされたリファイナー。前者は事前に学習された拡散バックボーンにRGB、深度、法線の側面のノイズ除去を同時に行い、ノイズ除去されたテクスチャと構造の間の空間的な整列を保証します。
このような細心の設計により、画像の外観、空間的な関係、およびジオメトリのモデリングが統一されたネットワーク内で共同して行われます。各ブランチはお互いを補完し、構造的な意識とテクスチャの豊かさを組み込んでいます。強化されたノイズスケジュールにより、低周波情報の漏洩がなくなり、ローカル領域の均一な深度と法線値が保たれます。各ブランチに同じタイムステップを使用することで学習を高め、特徴の融合を容易にします。空間的に整列された構造マップにより、構造ガイドされたリファイナーは詳細な高解像度画像の生成に向けた予測された条件を構成します。また、2段階の生成パイプラインにおけるエラー蓄積の影響を軽減するために、ロバストなコンディショニングスキームが設計されています。
次に、最先端の手法との比較結果が以下に報告されています。
各行の最初の4×4グリッドには、HyperHumanによって計算された入力のスケルトン、共同で除去された法線、深度、および粗いRGB(512×512)が含まれています。
これは、高いリアリズムと多様なレイアウトを持つ野生の人間の画像を生成するための革新的なAIフレームワークであるHyperHumanの概要でした。興味があり、さらに詳しく知りたい場合は、以下に引用されているリンクを参照してください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Amazon SageMaker Studioを使用してBMWグループのAI/MLの開発を加速」
- ID対マルチモーダル推奨システム:転移学習の視点
- 「AI/MLツールとフレームワーク:包括的な比較ガイド」
- 私の記事を読むと、あなた方は私がどれだけ美容とファッションについての知識を持っているかがわかるでしょう私は美容とファッションの分野において豊富な知識を持ち、それについて生き生きとした記事を書くことができます
- ソフトウェアエンジニアリングの未来 生成AIによる変革
- 自動チケットトライアジによる顧客サポート効率の向上
- このAI論文は、オープンソースライブラリの既存の機能を最大限に活用するために開発された新しい人工知能アプローチ、ML-BENCHを提案しています