「Decafと出会う:顔と手のインタラクションのための革新的な人工知能単眼変形キャプチャフレームワーク」
「Decaf」との出会い:顔と手のインタラクションのための革新的な人工知能単眼変形キャプチャフレームワーク
モノクルARGBビデオからの三次元(3D)トラッキングは、コンピュータビジョンと人工知能の最先端分野です。それは、単一の二次元ビデオフィードのみを使用して、オブジェクトやシーンの三次元位置と動きを推定することに焦点を当てています。
モノクルARGBビデオからの3Dトラッキングの既存の方法は、主に2つの手や人間が剛体環境と対話するなどの人工関節と剛体オブジェクトに焦点を当てています。手と顔の相互作用などの密な非剛体オブジェクト変形のモデリングの課題は、ほとんど見落とされています。しかしこれらの変形は、AR/VR、3D仮想アバターのコミュニケーション、キャラクターアニメーションなどの応用において、そのリアリズムを大幅に向上させることができます。この問題への限られた関心は、単眼ビューセットアップの固有の複雑さや、適切なトレーニングと評価データセットの取得、非一様な変形可能オブジェクトへの合理的な非一様な剛性の決定など、関連する困難に起因しています。
したがって、この記事では上記の基本的な課題に取り組む革新的な手法を紹介します。これにより、単一のモノクルARGBビデオから人間の手と顔の相互作用を3Dでトラッキングすることができます。この手法では、手を関節を持つオブジェクトとしてモデル化し、アクティブな相互作用中に非剛体の顔の変形を引き起こします。この手法の概要は以下の図に示されています。
- 「MindGPTとは、fMRI信号から察知された視覚刺激を自然言語に解釈する非侵襲的な神経デコーダーです」
- 「PIXART-αに会ってください:画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」
- 「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」
このアプローチは、手と顔の動きと相互作用、リアルな顔の変形を含む新たに作成したデータセットに依存しています。このデータセットの作成にあたり、著者らは位置ベースのダイナミクスを使用して生の3D形状を処理し、頭組織の非一様な剛性を推定する手法を開発しました。これらのステップにより、表面変形、手と顔の接触領域、および頭と手の位置の信頼性のある注釈が可能となります。
彼らのニューラルアプローチの中心にあるのは、手と顔の相互作用の深度情報を提供するバリアショナルオートエンコーダです。さらに、接触と変形を推定するためのモジュールが3Dトラッキングプロセスをガイドするために使用されます。この方法で生成される手と顔の最終的な3D再構成は、この文脈で適用可能ないくつかのベースライン手法と比較して、定量的および定性的な評価に基づいて、現実的でより信憑性のあるものです。
顔と手を同時に再構築し、相互作用から生じる表面変形を考慮することは、非常に困難な課題です。これは、再構築におけるリアリズムを向上させるために特に重要であり、このような相互作用は日常生活で頻繁に観察され、個人について他の人々が形成する印象に大きく影響を与えます。そのため、手と顔の相互作用の再構築は、アバターコミュニケーション、バーチャル/拡張現実、キャラクターアニメーションなどの応用において重要であり、没入型体験を創造するために不可欠です。また、手話の転写や運転手の眠気の監視などの応用にも影響を与えます。
顔と手の動きを再構築するためのさまざまな研究が存在するにもかかわらず、モノクルARGBビデオからの相互作用と対応する変形を捉えることはほとんど未開拓の領域であると2023年にTretschkらが指摘しています。一方、手と顔の再構築に既存のテンプレートベースの方法を使用しようとすると、衝突や相互作用と変形の省略などのアーティファクトが生じることが多いです。これは、単眼セットアップの固有の深度の曖昧さと、再構築プロセスでの変形モデリングの欠如が主な原因です。
この問題にはいくつかの重要な課題があります。一つの課題(I)は、非剛体変形と相互作用を伴う顔と手のマーカーレスRGBキャプチャデータセットの欠如です。これはモデルのトレーニングと方法の評価において重要であり、非剛体変形が発生する領域での頻繁な手と頭の動きによる遮蔽のため、このようなデータセットの作成は非常に困難です。もう一つの課題(II)は、単眼RGBセットアップの固有の深度の曖昧さから生じるものであり、正確な位置情報を得ることが困難であり、相互作用中に手と頭の接触や衝突の不足などのエラーが発生します。
これらの課題に対処するために、著者らは「Decaf」(頭と手の相互作用の変形キャプチャの略称)という、顔と手の相互作用と顔の変形をキャプチャするために設計されたモノクルRGBの手法を紹介しています。具体的には、複数ビューキャプチャセットアップと位置ベースのダイナミクスシミュレータを組み合わせて、遮蔽があっても相互作用する表面ジオメトリを再構築します。変形可能オブジェクトシミュレータを組み込むために、著者らは頭部メッシュの剛性値を「頭蓋皮膚距離(SSD)」という手法を使用して決定し、メッシュに非一様な剛性を割り当てます。このアプローチにより、均一な剛性値を使用する場合と比較して、再構築ジオメトリの定性的な妥当性が大幅に向上します。
彼らが新たに作成したデータセットを使用して、研究者たちはニューラルネットワークを訓練し、シングルビューのRGB画像から3D表面変形、頭部および手部表面の接触領域、および相互作用の深さの優先情報を抽出します。最終的な最適化段階では、さまざまな情報源からのこの情報を利用して、非剛体表面変形を伴う現実的な3D手と顔の相互作用を取得し、シングルビューセットアップに固有の深度のあいまいさを解決します。以下に示す結果は、既存の手法と比較してより現実的な手と顔の相互作用を示しています。
これがDecafの概要であり、顔の変形とともに顔と手の相互作用を捉えるために設計された新しいAIフレームワークです。興味があり、さらに詳しく知りたい場合は、以下で引用されたリンクをご覧ください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「xVal」というものに出会いましょう:科学応用のために数字を言語モデルにエンコードするための継続的な方法で、任意の数字を表すために単一のトークンだけを使用します
- 「多言語AIは本当に安全なのか?低リソース言語における大規模言語モデルの脆弱性を明らかにする」
- このAIの論文は、テキスト変換グラフとして言語モデルパイプラインを抽象化するプログラミングモデルであるDSPyを紹介しています
- 「取得した文書の圧縮は言語モデルのパフォーマンスを向上させることができるのか?このAIの論文では、圧縮と選択的な拡張によって検索増強型LMを改良するためのRECOMPを紹介しています」
- なぜ人々は人工知能AIを恐れているのか?
- 「DiffPoseTalk(デフポーズトーク)をご紹介:新しい音声対応3Dアニメーション人工知能フレームワーク」
- 「テキストを科学的なベクトルグラフィックスに変換することはできるのか?このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」