ケンブリッジ大学の研究者が50,000枚の合成された写真リアルな足のイメージデータセットと新しいAIライブラリを紹介

「ケンブリッジ大学の研究者が50,000枚の合成された写真とリアルな足のイメージのデータセット、そして新たなAIライブラリを紹介」

健康、ファッション、フィットネス産業は、写真から人体の3Dモデルを復元する難しいコンピュータビジョンの課題に非常に興味があります。この研究では、人間の足の3Dモデルを再構築する問題に取り組んでいます。正確な足のモデルは、シューズの購入、オーソティクス、個人の健康管理に役立ちます。また、写真から3Dモデルを復元するアイデアは、これらのビジネスのデジタル市場が成長するにつれて非常に魅力的になっています。既存の足の再構築ソリューションには、4つのタイプがあります。高価なスキャニング装置、ノイズの多いポイントクラウドの再構築、デプスマップやTrueDepthカメラのような携帯電話ベースのセンサーを使用した再構築、Structure from Motion(SfM)に続くMulti-View Stereo(MVS)、絵の輪郭に生成的な足のモデルをフィットさせる方法です。

これらのオプションのいずれも、家庭で精密なスキャンを行うには十分ではありません。多くの人々が高価なスキャニング装置を手に入れることはできません。携帯電話ベースのセンサーは広く利用できず、使いやすくもありません。ノイズの多いポイントクラウドは、レンダリングや測定などの後続の活動に利用することが困難です。さらに、生成的な足のモデルは品質が低く制約があり、イメージからのシルエットのみを使用することにより、イメージから得られる幾何学的情報の量に制約があります。これは、少数のビューの状況において特に問題となります。SfMは、画像間の密な特徴のマッチングに多くの入力ビューを必要とし、MVSはノイズの多いポイントクラウドを生成することもあります。

また、足の3Dグラウンドトゥルースデータとのペア写真の不足も、これらの手法の性能を制約しています。このため、ケンブリッジ大学の研究者たちは、FOUND(Foot Optimisation using Uncertain Normals for Surface Deformation)と呼ばれるアルゴリズムを提案しています。このアルゴリズムは、ピクセルごとの表面法線の不確実性を利用して、従来のマルチビュー再構築手法を改善します。彼らの手法は、最小限の校正済みRGB写真の入力数を必要としますが、幾何学的情報がないシルエットのみを利用して、表面法線とキーポイントを補完的な手がかりとして使用します。また、このようなシグナルのデータの希少性を乗り越えるために、人工的に写真のリアルなラベルと対応付けた豊富なコレクションも提供します。

以下に、彼らの主な貢献を示します:

• SynFootという大規模なシンセティックデータセットをリリースしました。このデータセットには、正確なシルエット、表面法線、キーポイントのラベルが付いた、5万枚のフォトリアルな足の写真が含まれます。このような情報を実際の写真で取得するには高価なスキャニング装置が必要ですが、彼らのデータセットは大規模なスケーラビリティを持っています。彼らは、8つの実際の足のスキャンのみを持っていながら、彼らのシンセティックデータセットが足の写真内の十分な変動を捉え、下流のタスクに対して実際の画像に一般化できることを示しています。また、474枚の14つの実際の足の写真と、高解像度の3Dスキャンとピクセル単位での表面法線のグラウンドトゥルースとの対応データセットも提供します。最後に、大規模なシンセティックデータセットの効果的な作成を可能にするBlenderのプロプライエタリPythonライブラリも公開します。

• 彼らは、不確実性を考慮した表面法線推定ネットワークが、8つの足のスキャンからのシンセティックデータのみを用いて、実際のフィールドでの足の写真に一般化できることを示しています。人工的な足の写真と実際の足の写真とのドメインの差を減らすために、彼らは積極的な外観と視点の拡張を使用しています。ネットワークは、各ピクセルで関連する不確実性と表面法線を計算します。不確実性をしきい値処理することで、別のネットワークを訓練する必要なく正確なシルエットを得ることができます。また、最適化スキームにおいて予測の正確性が不確実な場合に表面法線のロスに重みを付けるために、推定された不確実性を使用することで、ロバスト性を向上させることができます。

• 彼らは、ディファレンシャブルレンダリングを使用して生成的な足のモデルを校正済み写真のシリーズに適合させるための最適化戦略を提供します。彼らのパイプラインは、表面再構築のための最先端のフォトグラメトリよりも優れており、不確実性を考慮しており、ビューの数が限られている場合でも完全なメッシュを再構築することができます。また、ユーザーの携帯電話から得られたデータにも使用することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more