このAI論文は、それぞれの手のモデルに基づいてアバター間で手のモーションの意味を転送することを目指しています

This AI paper aims to transfer the meaning of hand motions between avatars based on each hand model.

さまざまな仮想アバターの文脈において、共同話話や手話合成を含む様々なバーチャルアバターのコンテキストで、現実的な手のジェスチャーの生成は有望性を示しています。人間の手は主要な非言語コミュニケーションであり、特定の手の動きをしながら微細なディテールを表現することができます。人々は手の動きに非常に敏感です。したがって、わずかなミスでもユーザーがバーチャルアバターアプリとの相互作用をどのように行うかに大きな影響を与える可能性があります。そのため、さまざまなバーチャルアバータの手の動きの意味論を一貫して維持することは非常に重要です。しかし、関節回転を直接再現することは、人間の手の高度に関節化された構造と多数の自由度(DoFs)および異なるアバターの手の形状と比率により、手の動きの微妙な意味論を大きく損なう可能性があります(図1参照)。

図1:指の関節からコピーされた正確な体の動きにもかかわらず、「いいね」のジェスチャーは読み取ることができません。

そのため、さまざまなアバターに手のジェスチャーをリターゲティングする際に意味論を維持できるシステムを構築することは非常に重要です。モーションリターゲティングと手物体相互作用は以前の研究の主要なトピックでした。Gleicherが発明したモーションリターゲティングの目標は、ソースの動きの特性を認識し、それらをさまざまなキャラクターのターゲット動きに適用することです。初期の研究では最適化に基づく方法が強調されました。最近では、さまざまなネットワーク設計と意味論の測定を使用したデータ駆動型の戦略が提案されています。これらの戦略は巧妙な手の動きのリターゲティングには適用されませんが、リアルなボディモーションのリターゲティングには成功しています。研究者たちは手話ジェスチャーのリターゲティングのためのルールベースの戦略を提案しましたが、彼らの方法論は特定の一連の事前定義された手のジェスチャーに制約されており、適切なテストが必要です。

静的なグリップ合成や操作モーション合成などを含む手物体相互作用の分野では、オブジェクトと相互作用する際に現実的な手の動きをシミュレートすることが目標です。ただし、これらの技術は手のジェスチャーに関連する意味論を維持する必要があります。また、異なるサイズと形状を持つ異なる手のモデルには適用できません。利用可能な技術にもかかわらず、複数の手のモデル間で複雑なモーションの意味論を維持しながら高精度でリターゲティングすることは依然として困難です。清華大学の研究者は、この研究で、複数の手のモデルにわたる元の手のモーションの意味論を保持しながら、巧妙な手のモーションをリターゲティングすることに焦点を当てています。このコンセプトは、ハンドモーションのリターゲティングには、ボディモーションのリターゲティングよりも高い意味論の測定精度が必要であるため、革新的です。

指の関節と手のひらとの間に強い空間相互作用が生じる小さな領域内の関節の高い密度のため、以前のモーションリターゲティングで使用された周期一貫性や距離行列などの意味論のメトリクスは見直す必要があります。そのため、彼らの主要な発見は、手の可動性の意味論を維持するために、指の関節と手のひらとの空間的な関連性に依存するということです。その結果、彼らは新たな解剖学に基づいた意味論行列(ASM)を作成し、空間的な相関関係を表現します。正確なハンドモーションのリターゲティングのために、彼らはASMを意味論の測定として使用します。まず、彼らはいくつかの手のモデル上の指の関節の解剖学的な局所座標フレームを構築します。そして、彼らは解剖学的な局所座標フレームを基礎としてASMを作成します。ASMでは、特定の指の関節の局所座標フレームにおける手のひらや他の関節の位置が定量化されます。

次に、彼らは解剖学に基づいた意味論再構築ネットワーク(ASRN)を使用して、ソースモーションASMからターゲットモーション回転へのマッピング関数を取得します。彼らは2つの異種手のモーションデータセットを使用してASRNを訓練します。彼らの解決策は、異なる手のモデルで使用することができ、テンプレートメッシュに依存しないため、意味論的な対応のためのテンプレートメッシュベースの方法とは対照的です。彼らは、彼らのASRNによって生成された手のジェスチャーの効果を評価するために広範なテストを実施しました。これらの調査には、複雑な手のモーションシーケンスやさまざまな手の形状が含まれており、ドメイン内およびクロスドメインの手のモーションリターゲティングシナリオでの定性的および定量的な結果が示されています。その結果、彼らのASRNは最先端のモーションリターゲティング技術を大幅に上回る性能を発揮していることが示されています。

彼らの3つの貢献は以下の通りです:

• 新しいタスクを提案:セマンティクスを保持しながら、複数の手のモデル間で器用な手のジェスチャーを再ターゲティングする。

• 解剖学に基づいたセマンティックマトリックス(ASM)を提供し、異なる手のモデルと組み合わせて使用でき、テンプレートメッシュを必要とせずに手の動きのセマンティクスを定量化する。

• ASMを使用して、セマンティクスを保持する手の動きの再ターゲティングのための最先端のアーキテクチャを提供する。ドメイン内およびドメイン間の手の動きの再ターゲティングタスクでの実験結果は、彼らのシステムが現行の手法よりも優れていることを確認しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

OpenAIはGPT-4 Turboを発表:カスタマイズ可能な人工知能の未来への飛躍

“`html イノベーションが急速で革命的な産業で、OpenAIは広く評価されている言語モデルのより強力でカスタマイズ可能な...

AI研究

「Google DeepMindと東京大学の研究者が、WebAgentを紹介:自然言語の指示に従って実際のウェブサイト上のタスクを完了できるLLM-Drivenエージェント」

論理演算、常識、論理的な推論、質問応答のタスク、テキスト生成、さらには対話的な意思決定タスクなど、多くの自然言語の活...

データサイエンス

機械学習システムにおけるデータ品質の維持

機械学習(ML)の眩しい世界では、洗練されたアルゴリズム、魅力的な視覚化、印象的な予測を考案する魅力に夢中になることは...

AIニュース

人工知能によって設計された薬剤が、人間の試験のために準備ができました

中国の複合企業フォン・グループとプライベートエクイティ企業ウォルバーグ・ピンカスに支援されたバイオテック企業Insilico ...

AI研究

百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げて...

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...