「NTUとSenseTimeの研究者が提案するSHERF:単一の入力画像からアニメーション可能な3D人間モデルを復元するための汎用的なHuman NeRFモデル」

SHERF A general Human NeRF model proposed by researchers from NTU and SenseTime to restore an animatable 3D human model from a single input image.

人工知能(AI)およびディープラーニングの分野は、常に急速に進化しています。自然言語処理に基づく大規模な言語モデルから、コンピュータビジョンの概念を利用したテキストから画像のモデルまで、AIは長い道のりを歩んできました。ヒューマンニューラルラディアンスフィールド(NeRF)により、正確な3Dジオメトリデータの必要性なしに、2Dの写真から高品質な3Dヒューマンモデルの再構築が可能となりました。この開発には、拡張現実(AR)や仮想現実(VR)などのさまざまなアプリケーションに重要な影響があります。ヒューマンNeRFは、2Dの観測から3Dの人物像を作成するプロセスを迅速化し、正確な3Dデータを取得するために必要な時間とリソースを削減します。

NeRFを使用して3Dヒューマンモデルを再構築する現在の技術の大部分は、単眼映画またはマルチビューカメラを使用して異なる視点から取得された複数の2D写真を使用しています。しかし、この方法は、人々の写真がランダムなカメラアングルから撮影される現実の状況で使用する場合には欠点があり、正確な3Dヒューマン再構築にはかなりの障害が生じます。この問題に対処するため、研究チームはSHERFを開発しました。SHERFは、単一の入力画像からアニメーション付きの3Dヒューマンモデルを復元することができる、初めての一般化可能なHuman NeRFモデルです。

SHERFは、標準化された参照フレーム内で3Dヒューマン表現を生成することで、再構築されたモデルを自由な視点とポーズでレンダリングおよびアニメーション化することができます。これは、従来の技術とは異なり、主に固定されたカメラアングルに依存している点が異なります。エンコードされた3Dヒューマン表現には、詳細なローカルテクスチャとグローバルな外観情報が含まれており、視点と位置の成功と高品質の合成を実現しています。これは、包括的なエンコードを容易にするために意図されたさまざまな特徴を持つ3D意識の階層的特徴のバンクの概念を使用することによって実現されます。

研究チームは、グローバル、ポイントレベル、ピクセルアラインメントの3つの階層的特徴を示しました。それぞれの特徴は異なる機能を持ち、単一の入力画像から得られる情報を補完するためにグローバル特徴が改善されることを意図しています。一方、ピクセルアラインメント特徴は、モデルの全体的な正確性とリアリズムに貢献する細かい詳細を保存する役割を担っており、ポイントレベル特徴は基礎となる3Dヒューマン解剖学の重要なシグナルを提供します。

研究チームは、これらの3D意識の階層的特徴を効率的に組み合わせるための特徴融合トランスフォーマーというデバイスを開発しました。このトランスフォーマーは、多くの階層的特徴タイプを組み合わせて利用するように設計されており、エンコードされた表現ができるだけ包括的かつ情報豊かであることを保証します。THuman、RenderPeople、ZJU_MoCap、HuMManなどの複数のデータセットでの綿密なテストにより、SHERFの有効性が示されました。その結果、SHERFは現在の最先端のレベルを上回り、ユニークな視点とポーズを組み合わせる際の高い汎用性を示しました。

研究チームによると、主な貢献は以下の通りです:

  1. 単一の画像からアニメーション付きの3Dヒューマンモデルを復元する、先駆的な一般化可能なHuman NeRFモデルであるSHERFを導入しました。
  1. より広範な文脈に適応することで、Human NeRFの応用範囲を現実のシナリオに拡大しました。
  1. SHERFは、詳細なテクスチャを復元し、不完全な観測からの情報の不足を埋めるために、細かいグローバル属性を捉える3D意識の階層的特徴を使用しています。
  1. SHERFは、以前の一般化可能なHuman NeRF手法を上回り、広範なデータセットでの視点とポーズの合成において優れた結果を達成しました。

結論として、この驚くべき研究は、特にランダムなカメラアングルからの写真を取得することが困難な現実の状況において、3Dヒューマン再構築の分野で大きな進歩を表しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「2024年に使用するためのトップ10のリアルタイムデータベース」

導入 現代アプリケーションのダイナミックな世界において、リアルタイムデータベースはスムーズなデータ管理と即時の更新を維...

機械学習

「LlamaIndex vs LangChain 比較分析」

はじめに Large Language Models(LLM)には、GPT-3などがありますが、研究者や開発者は常にその機能を向上させる新しい方法...

機械学習

ビジネス変革を加速させるクラウドネイティブ統合プラットフォーム

この記事では、クラウドネイティブな統合プラットフォームの重要な役割について掘り下げ、そのパワーを活用してビジネスの変...

機械学習

予測分析がテクノロジーの意思決定を革命化している方法

「ビジネス環境での予測分析の仕組みを学びましょう」

AI研究

このAI研究は、「ComCLIP:組成画像とテキストの整列におけるトレーニングフリーな方法」を公開しています

組成画像とテキストのマッチングは、ビジョン言語研究のダイナミックなフィールドにおいて、大きな課題を提起しています。こ...

機械学習

このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標とな...