このAI論文は、それぞれの手のモデルに基づいてアバター間で手のモーションの意味を転送することを目指しています

This AI paper aims to transfer the meaning of hand motions between avatars based on each hand model.

さまざまな仮想アバターの文脈において、共同話話や手話合成を含む様々なバーチャルアバターのコンテキストで、現実的な手のジェスチャーの生成は有望性を示しています。人間の手は主要な非言語コミュニケーションであり、特定の手の動きをしながら微細なディテールを表現することができます。人々は手の動きに非常に敏感です。したがって、わずかなミスでもユーザーがバーチャルアバターアプリとの相互作用をどのように行うかに大きな影響を与える可能性があります。そのため、さまざまなバーチャルアバータの手の動きの意味論を一貫して維持することは非常に重要です。しかし、関節回転を直接再現することは、人間の手の高度に関節化された構造と多数の自由度(DoFs)および異なるアバターの手の形状と比率により、手の動きの微妙な意味論を大きく損なう可能性があります(図1参照)。

図1:指の関節からコピーされた正確な体の動きにもかかわらず、「いいね」のジェスチャーは読み取ることができません。

そのため、さまざまなアバターに手のジェスチャーをリターゲティングする際に意味論を維持できるシステムを構築することは非常に重要です。モーションリターゲティングと手物体相互作用は以前の研究の主要なトピックでした。Gleicherが発明したモーションリターゲティングの目標は、ソースの動きの特性を認識し、それらをさまざまなキャラクターのターゲット動きに適用することです。初期の研究では最適化に基づく方法が強調されました。最近では、さまざまなネットワーク設計と意味論の測定を使用したデータ駆動型の戦略が提案されています。これらの戦略は巧妙な手の動きのリターゲティングには適用されませんが、リアルなボディモーションのリターゲティングには成功しています。研究者たちは手話ジェスチャーのリターゲティングのためのルールベースの戦略を提案しましたが、彼らの方法論は特定の一連の事前定義された手のジェスチャーに制約されており、適切なテストが必要です。

静的なグリップ合成や操作モーション合成などを含む手物体相互作用の分野では、オブジェクトと相互作用する際に現実的な手の動きをシミュレートすることが目標です。ただし、これらの技術は手のジェスチャーに関連する意味論を維持する必要があります。また、異なるサイズと形状を持つ異なる手のモデルには適用できません。利用可能な技術にもかかわらず、複数の手のモデル間で複雑なモーションの意味論を維持しながら高精度でリターゲティングすることは依然として困難です。清華大学の研究者は、この研究で、複数の手のモデルにわたる元の手のモーションの意味論を保持しながら、巧妙な手のモーションをリターゲティングすることに焦点を当てています。このコンセプトは、ハンドモーションのリターゲティングには、ボディモーションのリターゲティングよりも高い意味論の測定精度が必要であるため、革新的です。

指の関節と手のひらとの間に強い空間相互作用が生じる小さな領域内の関節の高い密度のため、以前のモーションリターゲティングで使用された周期一貫性や距離行列などの意味論のメトリクスは見直す必要があります。そのため、彼らの主要な発見は、手の可動性の意味論を維持するために、指の関節と手のひらとの空間的な関連性に依存するということです。その結果、彼らは新たな解剖学に基づいた意味論行列(ASM)を作成し、空間的な相関関係を表現します。正確なハンドモーションのリターゲティングのために、彼らはASMを意味論の測定として使用します。まず、彼らはいくつかの手のモデル上の指の関節の解剖学的な局所座標フレームを構築します。そして、彼らは解剖学的な局所座標フレームを基礎としてASMを作成します。ASMでは、特定の指の関節の局所座標フレームにおける手のひらや他の関節の位置が定量化されます。

次に、彼らは解剖学に基づいた意味論再構築ネットワーク(ASRN)を使用して、ソースモーションASMからターゲットモーション回転へのマッピング関数を取得します。彼らは2つの異種手のモーションデータセットを使用してASRNを訓練します。彼らの解決策は、異なる手のモデルで使用することができ、テンプレートメッシュに依存しないため、意味論的な対応のためのテンプレートメッシュベースの方法とは対照的です。彼らは、彼らのASRNによって生成された手のジェスチャーの効果を評価するために広範なテストを実施しました。これらの調査には、複雑な手のモーションシーケンスやさまざまな手の形状が含まれており、ドメイン内およびクロスドメインの手のモーションリターゲティングシナリオでの定性的および定量的な結果が示されています。その結果、彼らのASRNは最先端のモーションリターゲティング技術を大幅に上回る性能を発揮していることが示されています。

彼らの3つの貢献は以下の通りです:

• 新しいタスクを提案:セマンティクスを保持しながら、複数の手のモデル間で器用な手のジェスチャーを再ターゲティングする。

• 解剖学に基づいたセマンティックマトリックス(ASM)を提供し、異なる手のモデルと組み合わせて使用でき、テンプレートメッシュを必要とせずに手の動きのセマンティクスを定量化する。

• ASMを使用して、セマンティクスを保持する手の動きの再ターゲティングのための最先端のアーキテクチャを提供する。ドメイン内およびドメイン間の手の動きの再ターゲティングタスクでの実験結果は、彼らのシステムが現行の手法よりも優れていることを確認しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AGI(人工汎用知能)にどれくらい近づいているのでしょうか?

AIは人間の知性を超えることができるのでしょうか? 現在の進歩とAGIの課題を取り上げた記事

データサイエンス

Twitterの後

問題を抱えたTwitterに挑戦するために、新しいソーシャルアプリが現れている

AI研究

UCバークレーとSJTU中国の研究者が、言語モデルのベンチマークと汚染を再考するための「再表現サンプル」の概念を紹介しました

大型言語モデルはますます複雑になり、評価が困難になっています。コミュニティは比較的短期間で多くのベンチマークを作成し...

機械学習

このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル(Code-LLMs)はコ...

機械学習

「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」

最近の技術の進歩により、GPT-3やPaLMなどの大規模言語モデル(LLM)は、教育、コンテンツ制作、医療、研究などの様々な領域...