このAI研究では、SMPLer-Xという名前のモデルを提案していますこれは一般的な基礎モデルであり、モノクル入力から3D/4D人体のモーションキャプチャを行います
『SMPLer-X』という名前のモデルを使用し、一般的な基礎モデルである、モノクル入力から3D/4D人体のモーションキャプチャを行うAI研究を提案します
アニメーション、ゲーム、ファッションの分野は、単眼写真や動画からの表現的な人体の姿勢と形状推定(EHPS)の画期的な分野から恩恵を受けることがあります。複雑な人体解剖学、顔、手を正確に表現するために、この作業では通常、パラメトリックな人体モデル(SMPL-Xなど)が使用されます。最近の数年間では、ユニークなデータセットが流入し、環境のキャプチャ、位置分布、体の可視性、カメラの視点などの研究の機会が増えました。しかし、最先端のアプローチはまだこれらのデータセットの一部に制約があり、さまざまなシナリオでパフォーマンスのボトルネックとなり、未開拓の地域への一般化を妨げています。
EHPSの信頼性のある、国際的に適用可能なモデルを構築するために、この研究では利用可能なデータセットを徹底的に分析することを目標としています。これを行うために、彼らは32のデータセットを使用したEHPSの最初のシステムベンチマークを作成し、そのパフォーマンスを4つの主要基準に対して評価しました。これにより、ベンチマーク間の重要な不整合が明らかになり、全体的なEHPSの複雑さが強調され、シナリオ間のドメインギャップを解消するためにデータのスケーリングが必要であることが示されました。この詳細な分析は、EHPSのための既存のデータセットの使用を再評価する必要性を示し、より優れた汎化能力を提供するより攻撃的な代替手段への切り替えを主張しています。
彼らの研究は、補完的な性質を持つ複数のデータセットを利用する価値を強調しています。また、これらのデータセットの転送性に影響を与える関連する側面を徹底的に調査しています。彼らの研究は将来のデータセット収集に役立つアドバイスを提供します。1) 100,000以上のインスタンスを含む場合、データセットは特に大規模である必要はありません。2) イン・ザ・ワイルド(屋外を含む)の収集が不可能な場合、さまざまな屋内風景が優れた代替手段となります。3) シンセティックデータセットは、検出可能なドメインギャップを持ちながら、驚くほど効果的になっています。4) SMPL-Xのアノテーションがない場合、擬似SMPL-Xラベルは役立ちます。
- GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する
- スタンフォードの研究者たちは、分散変換の問題に適したシンプルかつスケーラブルな拡張であるDDBMsを提案しています
- このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成
ベンチマークからの情報を使用して、Nanyang Technological University、SenseTime Research、Shanghai AI Laboratory、東京大学、国際デジタル経済アカデミー(IDEA)の研究者たちはSMPLer-Xを作成しました。この汎用基盤モデルはさまざまなデータセットを使用してトレーニングされ、様々な状況でバランスの取れた結果を提供します。この研究は大量の選択されたデータの力を示しています。彼らは、EHPSのための非常に基本的なアーキテクチャを持つSMPLer-Xを開発しました。厳密なアルゴリズムの要素の分析ではなく、SMPLer-Xは大規模なデータとパラメータのスケーリングを許容し、将来のフィールド研究の基盤となるよう設計されています。
さまざまなデータの組み合わせやモデルサイズでの実験により、従来のデータセットトレーニングの広く行われている方法に挑戦し、すべてのベンチマーク結果を上回る包括的なモデルを構築しました。彼らの基盤モデルにより、5つの主要なベンチマーク(AGORA、UBody、EgoBody、3DPW、EHF)での平均主要エラーが110ミリメートルを超えて70ミリメートル以下に減少しました。また、RenBodyやARCTICなどの新しいシナリオにも成功して印象的な汎化能力を示しています。さらに、彼らは基盤モデルの最適化の効果を示し、ドメイン固有のエキスパートとして機能して、広範なベンチマークで優れたパフォーマンスを実現しています。
EgoBody、UBody、EHFにおいて最新技術の性能を発揮するために同じデータ選択方法を採用しており、AGORAリーダーボードでも107.2ミリメートルのNMVE(11.0%の改善)を達成し、新たな記録を打ち立てました。彼らは3つの異なる貢献を提供しています。1) EHPSの幅広いデータセットを使用して、信頼性のある、移植可能なEHPSに向けたトレーニングデータのスケーリングに重要な方向性を提供する、最初のシステマティックなベンチマークを構築します。2) データとモデルのスケーリングの両方を調査し、バランスの取れた結果を提供し、未開拓のデータセットに効果的に拡張する汎用基盤モデルを構築します。3) 基盤モデルを改良して、データ選択手法を拡張し、さまざまなベンチマークで強力な専門家となります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです
- 取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします
- バイトダンスとキング・アブドゥッラー科学技術大学のAI研究者が、静止したポートレート写真の髪の毛を揺らすための新しいフレームワークを発表します
- スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート
- 「UCSDとByteDanceの研究者が、アクターズネルフ(ActorsNeRF)を発表:未知の俳優にも対応するアニメータブルな人間アクターネルフモデルで、フューショット設定の環境に汎化する」という意味です
- 「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」
- マンチェスター大学の研究者たちは、MentalLLaMAを導入しましたこれは、読みやすい精神健康分析のためのオープンソースLLMシリーズで、指導に従う能力を持っています