「NTUとSenseTimeの研究者が提案するSHERF:単一の入力画像からアニメーション可能な3D人間モデルを復元するための汎用的なHuman NeRFモデル」

SHERF A general Human NeRF model proposed by researchers from NTU and SenseTime to restore an animatable 3D human model from a single input image.

人工知能(AI)およびディープラーニングの分野は、常に急速に進化しています。自然言語処理に基づく大規模な言語モデルから、コンピュータビジョンの概念を利用したテキストから画像のモデルまで、AIは長い道のりを歩んできました。ヒューマンニューラルラディアンスフィールド(NeRF)により、正確な3Dジオメトリデータの必要性なしに、2Dの写真から高品質な3Dヒューマンモデルの再構築が可能となりました。この開発には、拡張現実(AR)や仮想現実(VR)などのさまざまなアプリケーションに重要な影響があります。ヒューマンNeRFは、2Dの観測から3Dの人物像を作成するプロセスを迅速化し、正確な3Dデータを取得するために必要な時間とリソースを削減します。

NeRFを使用して3Dヒューマンモデルを再構築する現在の技術の大部分は、単眼映画またはマルチビューカメラを使用して異なる視点から取得された複数の2D写真を使用しています。しかし、この方法は、人々の写真がランダムなカメラアングルから撮影される現実の状況で使用する場合には欠点があり、正確な3Dヒューマン再構築にはかなりの障害が生じます。この問題に対処するため、研究チームはSHERFを開発しました。SHERFは、単一の入力画像からアニメーション付きの3Dヒューマンモデルを復元することができる、初めての一般化可能なHuman NeRFモデルです。

SHERFは、標準化された参照フレーム内で3Dヒューマン表現を生成することで、再構築されたモデルを自由な視点とポーズでレンダリングおよびアニメーション化することができます。これは、従来の技術とは異なり、主に固定されたカメラアングルに依存している点が異なります。エンコードされた3Dヒューマン表現には、詳細なローカルテクスチャとグローバルな外観情報が含まれており、視点と位置の成功と高品質の合成を実現しています。これは、包括的なエンコードを容易にするために意図されたさまざまな特徴を持つ3D意識の階層的特徴のバンクの概念を使用することによって実現されます。

研究チームは、グローバル、ポイントレベル、ピクセルアラインメントの3つの階層的特徴を示しました。それぞれの特徴は異なる機能を持ち、単一の入力画像から得られる情報を補完するためにグローバル特徴が改善されることを意図しています。一方、ピクセルアラインメント特徴は、モデルの全体的な正確性とリアリズムに貢献する細かい詳細を保存する役割を担っており、ポイントレベル特徴は基礎となる3Dヒューマン解剖学の重要なシグナルを提供します。

研究チームは、これらの3D意識の階層的特徴を効率的に組み合わせるための特徴融合トランスフォーマーというデバイスを開発しました。このトランスフォーマーは、多くの階層的特徴タイプを組み合わせて利用するように設計されており、エンコードされた表現ができるだけ包括的かつ情報豊かであることを保証します。THuman、RenderPeople、ZJU_MoCap、HuMManなどの複数のデータセットでの綿密なテストにより、SHERFの有効性が示されました。その結果、SHERFは現在の最先端のレベルを上回り、ユニークな視点とポーズを組み合わせる際の高い汎用性を示しました。

研究チームによると、主な貢献は以下の通りです:

  1. 単一の画像からアニメーション付きの3Dヒューマンモデルを復元する、先駆的な一般化可能なHuman NeRFモデルであるSHERFを導入しました。
  1. より広範な文脈に適応することで、Human NeRFの応用範囲を現実のシナリオに拡大しました。
  1. SHERFは、詳細なテクスチャを復元し、不完全な観測からの情報の不足を埋めるために、細かいグローバル属性を捉える3D意識の階層的特徴を使用しています。
  1. SHERFは、以前の一般化可能なHuman NeRF手法を上回り、広範なデータセットでの視点とポーズの合成において優れた結果を達成しました。

結論として、この驚くべき研究は、特にランダムなカメラアングルからの写真を取得することが困難な現実の状況において、3Dヒューマン再構築の分野で大きな進歩を表しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「単一細胞生物学のAIのフロンティアを探索する:GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

単一細胞生物学における基礎モデルの応用は、研究者の間で最近の議論のトピックとなっています。scGPT、GeneCompass、Genefor...

AI研究

「マイクロソフトの研究者がSpeechXを紹介:ゼロショットのTTSと様々な音声変換タスクに対応する多目的音声生成モデル」

テキスト、ビジョン、音声など、複数の機械学習アプリケーションは、生成モデルの技術において急速かつ重要な進展を遂げてき...

データサイエンス

企業がOpenAIのChatGPTに類似した自社の大規模言語モデルを構築する方法

最近の数年間で、言語モデルは大きな注目を集め、自然言語処理、コンテンツ生成、仮想アシスタントなど、さまざまな分野を革...

データサイエンス

ダックAIは、DuckTrackを紹介します:マルチモーダルコンピュータインタラクションデータコレクター

ユーザーの相互作用の正確で精密なトラッキングは、コンピューターエージェントの機能を進化させる上で重要な基盤となります...

機械学習

LoftQをご紹介します:大規模言語モデルのためのLoRA(Fine-Tuning-Aware Quantization)

プリトレーニングされた言語モデル(PLM)の導入は、自然言語処理の分野において画期的な変革を示しています。プリトレーニング...

機械学習

2024年に探索するべきトップ12の生成 AI モデル

はじめに 近年、人工知能(AI)は非凡な変革を遂げ、創造性の風景を再構築するだけでなく、多様な産業における自動化の新たな...