「NTUとSenseTimeの研究者が提案するSHERF:単一の入力画像からアニメーション可能な3D人間モデルを復元するための汎用的なHuman NeRFモデル」

SHERF A general Human NeRF model proposed by researchers from NTU and SenseTime to restore an animatable 3D human model from a single input image.

人工知能(AI)およびディープラーニングの分野は、常に急速に進化しています。自然言語処理に基づく大規模な言語モデルから、コンピュータビジョンの概念を利用したテキストから画像のモデルまで、AIは長い道のりを歩んできました。ヒューマンニューラルラディアンスフィールド(NeRF)により、正確な3Dジオメトリデータの必要性なしに、2Dの写真から高品質な3Dヒューマンモデルの再構築が可能となりました。この開発には、拡張現実(AR)や仮想現実(VR)などのさまざまなアプリケーションに重要な影響があります。ヒューマンNeRFは、2Dの観測から3Dの人物像を作成するプロセスを迅速化し、正確な3Dデータを取得するために必要な時間とリソースを削減します。

NeRFを使用して3Dヒューマンモデルを再構築する現在の技術の大部分は、単眼映画またはマルチビューカメラを使用して異なる視点から取得された複数の2D写真を使用しています。しかし、この方法は、人々の写真がランダムなカメラアングルから撮影される現実の状況で使用する場合には欠点があり、正確な3Dヒューマン再構築にはかなりの障害が生じます。この問題に対処するため、研究チームはSHERFを開発しました。SHERFは、単一の入力画像からアニメーション付きの3Dヒューマンモデルを復元することができる、初めての一般化可能なHuman NeRFモデルです。

SHERFは、標準化された参照フレーム内で3Dヒューマン表現を生成することで、再構築されたモデルを自由な視点とポーズでレンダリングおよびアニメーション化することができます。これは、従来の技術とは異なり、主に固定されたカメラアングルに依存している点が異なります。エンコードされた3Dヒューマン表現には、詳細なローカルテクスチャとグローバルな外観情報が含まれており、視点と位置の成功と高品質の合成を実現しています。これは、包括的なエンコードを容易にするために意図されたさまざまな特徴を持つ3D意識の階層的特徴のバンクの概念を使用することによって実現されます。

研究チームは、グローバル、ポイントレベル、ピクセルアラインメントの3つの階層的特徴を示しました。それぞれの特徴は異なる機能を持ち、単一の入力画像から得られる情報を補完するためにグローバル特徴が改善されることを意図しています。一方、ピクセルアラインメント特徴は、モデルの全体的な正確性とリアリズムに貢献する細かい詳細を保存する役割を担っており、ポイントレベル特徴は基礎となる3Dヒューマン解剖学の重要なシグナルを提供します。

研究チームは、これらの3D意識の階層的特徴を効率的に組み合わせるための特徴融合トランスフォーマーというデバイスを開発しました。このトランスフォーマーは、多くの階層的特徴タイプを組み合わせて利用するように設計されており、エンコードされた表現ができるだけ包括的かつ情報豊かであることを保証します。THuman、RenderPeople、ZJU_MoCap、HuMManなどの複数のデータセットでの綿密なテストにより、SHERFの有効性が示されました。その結果、SHERFは現在の最先端のレベルを上回り、ユニークな視点とポーズを組み合わせる際の高い汎用性を示しました。

研究チームによると、主な貢献は以下の通りです:

  1. 単一の画像からアニメーション付きの3Dヒューマンモデルを復元する、先駆的な一般化可能なHuman NeRFモデルであるSHERFを導入しました。
  1. より広範な文脈に適応することで、Human NeRFの応用範囲を現実のシナリオに拡大しました。
  1. SHERFは、詳細なテクスチャを復元し、不完全な観測からの情報の不足を埋めるために、細かいグローバル属性を捉える3D意識の階層的特徴を使用しています。
  1. SHERFは、以前の一般化可能なHuman NeRF手法を上回り、広範なデータセットでの視点とポーズの合成において優れた結果を達成しました。

結論として、この驚くべき研究は、特にランダムなカメラアングルからの写真を取得することが困難な現実の状況において、3Dヒューマン再構築の分野で大きな進歩を表しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「NTUシンガポールの研究者がResShiftを導入:他の手法と比較して、残差シフトを使用し、画像超解像度をより速く実現する新しいアップスケーラモデル」

低レベルビジョンの基本的な課題の1つは、画像のスーパーレゾリューション(SR)であり、低解像度(LR)の画像から高解像度(...

コンピュータサイエンス

弁護士には、ChatGPTを使用したことについて、許しを求めることを検討するよう命じられました

裁判官は、スティーブン・A・シュワルツとピーター・ロドゥーカに、架空の内容を含む書類で名指しされた裁判官に対して罰金を...

AIニュース

ランウェイの新しい「モーションブラシ」機能は、Gen-2においてあなたのジェネレーションに制御された動きを追加することを可能にします

ビデオ生成では、ユーザーは平文からビデオを作成するという困難に常に直面してきました。従来の方法では、緻密なソフトウェ...

人工知能

「A.I.ブームで最も不可欠な賞を必死に追い求める」

人工知能製品を動かすために、スタートアップ企業と投資家は、グラフィックス処理ユニット(GPU)として知られる重要なチップ...

機械学習

「PyTorchモデルのパフォーマンス分析と最適化 - パート3」

これは、PyTorch ProfilerとTensorBoardを使用してPyTorchモデルの分析と最適化を行うトピックに関するシリーズ投稿の3部目で...

機械学習

DISC-FinLLMとは、複数の専門家のファインチューニングに基づいた中国の金融大規模言語モデル(LLM)です

“` 人工知能の分野で最大の進歩は、大規模言語モデル(LLM)の導入です。これらの自然言語処理(NLP)ベースのモデルは...