このAI研究では、SMPLer-Xという名前のモデルを提案していますこれは一般的な基礎モデルであり、モノクル入力から3D/4D人体のモーションキャプチャを行います

『SMPLer-X』という名前のモデルを使用し、一般的な基礎モデルである、モノクル入力から3D/4D人体のモーションキャプチャを行うAI研究を提案します

アニメーション、ゲーム、ファッションの分野は、単眼写真や動画からの表現的な人体の姿勢と形状推定(EHPS)の画期的な分野から恩恵を受けることがあります。複雑な人体解剖学、顔、手を正確に表現するために、この作業では通常、パラメトリックな人体モデル(SMPL-Xなど)が使用されます。最近の数年間では、ユニークなデータセットが流入し、環境のキャプチャ、位置分布、体の可視性、カメラの視点などの研究の機会が増えました。しかし、最先端のアプローチはまだこれらのデータセットの一部に制約があり、さまざまなシナリオでパフォーマンスのボトルネックとなり、未開拓の地域への一般化を妨げています。

EHPSの信頼性のある、国際的に適用可能なモデルを構築するために、この研究では利用可能なデータセットを徹底的に分析することを目標としています。これを行うために、彼らは32のデータセットを使用したEHPSの最初のシステムベンチマークを作成し、そのパフォーマンスを4つの主要基準に対して評価しました。これにより、ベンチマーク間の重要な不整合が明らかになり、全体的なEHPSの複雑さが強調され、シナリオ間のドメインギャップを解消するためにデータのスケーリングが必要であることが示されました。この詳細な分析は、EHPSのための既存のデータセットの使用を再評価する必要性を示し、より優れた汎化能力を提供するより攻撃的な代替手段への切り替えを主張しています。

彼らの研究は、補完的な性質を持つ複数のデータセットを利用する価値を強調しています。また、これらのデータセットの転送性に影響を与える関連する側面を徹底的に調査しています。彼らの研究は将来のデータセット収集に役立つアドバイスを提供します。1) 100,000以上のインスタンスを含む場合、データセットは特に大規模である必要はありません。2) イン・ザ・ワイルド(屋外を含む)の収集が不可能な場合、さまざまな屋内風景が優れた代替手段となります。3) シンセティックデータセットは、検出可能なドメインギャップを持ちながら、驚くほど効果的になっています。4) SMPL-Xのアノテーションがない場合、擬似SMPL-Xラベルは役立ちます。

ベンチマークからの情報を使用して、Nanyang Technological University、SenseTime Research、Shanghai AI Laboratory、東京大学、国際デジタル経済アカデミー(IDEA)の研究者たちはSMPLer-Xを作成しました。この汎用基盤モデルはさまざまなデータセットを使用してトレーニングされ、様々な状況でバランスの取れた結果を提供します。この研究は大量の選択されたデータの力を示しています。彼らは、EHPSのための非常に基本的なアーキテクチャを持つSMPLer-Xを開発しました。厳密なアルゴリズムの要素の分析ではなく、SMPLer-Xは大規模なデータとパラメータのスケーリングを許容し、将来のフィールド研究の基盤となるよう設計されています。

さまざまなデータの組み合わせやモデルサイズでの実験により、従来のデータセットトレーニングの広く行われている方法に挑戦し、すべてのベンチマーク結果を上回る包括的なモデルを構築しました。彼らの基盤モデルにより、5つの主要なベンチマーク(AGORA、UBody、EgoBody、3DPW、EHF)での平均主要エラーが110ミリメートルを超えて70ミリメートル以下に減少しました。また、RenBodyやARCTICなどの新しいシナリオにも成功して印象的な汎化能力を示しています。さらに、彼らは基盤モデルの最適化の効果を示し、ドメイン固有のエキスパートとして機能して、広範なベンチマークで優れたパフォーマンスを実現しています。

EgoBody、UBody、EHFにおいて最新技術の性能を発揮するために同じデータ選択方法を採用しており、AGORAリーダーボードでも107.2ミリメートルのNMVE(11.0%の改善)を達成し、新たな記録を打ち立てました。彼らは3つの異なる貢献を提供しています。1) EHPSの幅広いデータセットを使用して、信頼性のある、移植可能なEHPSに向けたトレーニングデータのスケーリングに重要な方向性を提供する、最初のシステマティックなベンチマークを構築します。2) データとモデルのスケーリングの両方を調査し、バランスの取れた結果を提供し、未開拓のデータセットに効果的に拡張する汎用基盤モデルを構築します。3) 基盤モデルを改良して、データ選択手法を拡張し、さまざまなベンチマークで強力な専門家となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「LangChainとOpenAI APIを使用した生成型AIアプリケーションの構築」

イントロダクション 生成AIは、現在の技術の最先端をリードしています。画像生成、テキスト生成、要約、質疑応答ボットなど、...

人工知能

「6つの人工知能の神話を解明:事実とフィクションの分離」

「人気のあるAIの神話の真実を見つけ出し、今日の世界における生成型AIの本当の能力と影響に深く没頭してください」

データサイエンス

マシンラーニング手法の鉄道欠陥検索への応用(パート2)

「超音波フローパターンによる鉄道レールの釘穴部の放射状クラックの検出に機械学習手法の応用を探求する」(Chōonpa furō pat...

機械学習

「テキストを科学的なベクトルグラフィックスに変換することはできるのか?このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」

テキストから画像の生成の最新の進歩により、直感的な自然言語記述から詳細なグラフィックの作成が可能になりました。Stable ...

AI研究

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相...

機械学習

AIシステム:発見されたバイアスと真の公正性への魅力的な探求

「人工知能(AI)はもはや未来の概念ではありません-それは私たちの生活の一部になっています Visaが1秒間に1,700件のトラン...