センスタイムリサーチは、長文から人間の動きと軌跡を生成するための新しい人工知能アプローチ「Story-to-Motion」を提案しています

センスタイムリサーチが提案する新しい人工知能アプローチ「ストーリーからモーションへ」

人工知能はほとんどの産業に進出しています。ストーリーから自然な人間の動きを作り出すことは、アニメーション、ビデオゲーム、映画の産業を完全に変革する力を持っています。最も困難なタスクの一つは、キャラクターが異なるエリアを移動し、特定のアクションを行う必要がある場合のストーリーからモーションへの変換です。詳細な説明を基に、このタスクは高レベルのモーションセマンティック制御と軌跡を扱う低レベル制御のスムーズな統合を必要とします。

テキストからモーションやキャラクターコントロールに多くの努力が注がれてきましたが、適切な解決策はまだ見つかっていません。既存のキャラクターコントロール手法には多くの制約があり、テキストの説明に対応することができません。現在のテキストからモーション手法でも、より多くの位置制約が必要であり、不安定なモーションが生成される結果となります。

これらの課題を克服するために、研究者のチームが独自のアプローチを導入しました。このアプローチは、入力テキストに合わせて制御されたトラジェクトリと連続的かつ無限に長いモーションを生成するのに非常に効果的です。提案されたアプローチには以下の3つの主要なコンポーネントがあります。

  1. テキストによるモーションスケジューリング:現代の大規模な自然言語モデルは、長いテキストの説明からテキストによるモーションスケジューラとして、テキスト、位置、期間のペアを取ります。この段階では、生成されるモーションがストーリーに基づいており、各アクションの位置と長さについての詳細も含まれます。
  1. テキストによるモーションリトリーバルシステム:モーションのマッチングと制約によってトラジェクトリとセマンティックの組み合わせで総合的なモーションリトリーバルシステムを作成しました。これにより、生成されるモーションがテキストの説明に沿ったセマンティックと位置の特性を満たすことが保証されます。
  1. プログレッシブマスクトランスフォーマ:フットスライディングや異常な姿勢といった遷移モーションの頻繁なアーティファクトに対処するために、プログレッシブマスクトランスフォーマが設計されました。この要素は、生成されるモーションの品質を向上させ、スムーズなトランジションとより現実的な外観を持つアニメーションを生成する上で不可欠です。

チームは、このアプローチをモーションのブレンディング、時間的なアクションの合成、軌跡の追跡という3つの異なるサブタスクでテストしたと共有しています。評価の結果、これまでのモーション合成技術と比較して、すべての領域で性能が向上したことが示されました。研究者は、主な貢献を以下のようにまとめています。

  1. 詳細なテキストの説明から包括的なモーションを生成するために、軌跡とセマンティクスが導入され、ストーリーからモーションへの問題が解決されました。
  1. 正確かつカスタマイズ可能なモーション合成を提供するために、広範なテキスト入力を使用する新しい方法であるテキストベースのモーションマッチングが提案されました。
  1. ベンチマークデータセットで実施された実験によって示されるように、軌跡の追跡、時間的なアクションの合成、モーションのブレンディングのサブタスクで、このアプローチは最先端の技術を凌駕しています。

まとめると、このシステムはテキストナラティブからの人間のモーション合成において、大きな進歩です。ストーリーからモーションの問題に関連する課題に完全な解答を提供します。アニメーション、ゲーム、映画の業界に革新的な影響を与えることでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『Re Invent 2023の私のお勧め』

ここに私のお気に入りのリストがありますが、特定の順序はありません (Koko ni watashi no okiniiri no risuto ga arimasu ga...

機械学習

聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化...

AI研究

ソルボンヌ大学の研究者は、画像、ビデオ、音声、言語のタスクに対する統合AIモデル「UnIVAL」を紹介しました

一般的なモデルを作成するための大きな進歩の一つは、大規模な言語モデル(LLM)の出現です。彼らの驚異的なテキスト理解およ...

AI研究

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

人工知能が人間の感情を再現するにつれて、本物の人間の表情の機械的な複雑さを徹底的に調査することが浮かび上がりました。...

AI研究

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモ...

機械学習

このAI論文では、大規模言語モデルでの関連しない行動について探求されています:“シミュレートされた株式取引におけるGPT-4の欺瞞的な戦略”

一部の高度なAIシステムが戦略的な欺瞞を行う可能性について懸念が出ています。AIシステムの安全性を評価することに特化したA...