センスタイムリサーチは、長文から人間の動きと軌跡を生成するための新しい人工知能アプローチ「Story-to-Motion」を提案しています

センスタイムリサーチが提案する新しい人工知能アプローチ「ストーリーからモーションへ」

人工知能はほとんどの産業に進出しています。ストーリーから自然な人間の動きを作り出すことは、アニメーション、ビデオゲーム、映画の産業を完全に変革する力を持っています。最も困難なタスクの一つは、キャラクターが異なるエリアを移動し、特定のアクションを行う必要がある場合のストーリーからモーションへの変換です。詳細な説明を基に、このタスクは高レベルのモーションセマンティック制御と軌跡を扱う低レベル制御のスムーズな統合を必要とします。

テキストからモーションやキャラクターコントロールに多くの努力が注がれてきましたが、適切な解決策はまだ見つかっていません。既存のキャラクターコントロール手法には多くの制約があり、テキストの説明に対応することができません。現在のテキストからモーション手法でも、より多くの位置制約が必要であり、不安定なモーションが生成される結果となります。

これらの課題を克服するために、研究者のチームが独自のアプローチを導入しました。このアプローチは、入力テキストに合わせて制御されたトラジェクトリと連続的かつ無限に長いモーションを生成するのに非常に効果的です。提案されたアプローチには以下の3つの主要なコンポーネントがあります。

  1. テキストによるモーションスケジューリング:現代の大規模な自然言語モデルは、長いテキストの説明からテキストによるモーションスケジューラとして、テキスト、位置、期間のペアを取ります。この段階では、生成されるモーションがストーリーに基づいており、各アクションの位置と長さについての詳細も含まれます。
  1. テキストによるモーションリトリーバルシステム:モーションのマッチングと制約によってトラジェクトリとセマンティックの組み合わせで総合的なモーションリトリーバルシステムを作成しました。これにより、生成されるモーションがテキストの説明に沿ったセマンティックと位置の特性を満たすことが保証されます。
  1. プログレッシブマスクトランスフォーマ:フットスライディングや異常な姿勢といった遷移モーションの頻繁なアーティファクトに対処するために、プログレッシブマスクトランスフォーマが設計されました。この要素は、生成されるモーションの品質を向上させ、スムーズなトランジションとより現実的な外観を持つアニメーションを生成する上で不可欠です。

チームは、このアプローチをモーションのブレンディング、時間的なアクションの合成、軌跡の追跡という3つの異なるサブタスクでテストしたと共有しています。評価の結果、これまでのモーション合成技術と比較して、すべての領域で性能が向上したことが示されました。研究者は、主な貢献を以下のようにまとめています。

  1. 詳細なテキストの説明から包括的なモーションを生成するために、軌跡とセマンティクスが導入され、ストーリーからモーションへの問題が解決されました。
  1. 正確かつカスタマイズ可能なモーション合成を提供するために、広範なテキスト入力を使用する新しい方法であるテキストベースのモーションマッチングが提案されました。
  1. ベンチマークデータセットで実施された実験によって示されるように、軌跡の追跡、時間的なアクションの合成、モーションのブレンディングのサブタスクで、このアプローチは最先端の技術を凌駕しています。

まとめると、このシステムはテキストナラティブからの人間のモーション合成において、大きな進歩です。ストーリーからモーションの問題に関連する課題に完全な解答を提供します。アニメーション、ゲーム、映画の業界に革新的な影響を与えることでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

テーブル内の重複した値を見つけるための最高のSQLトリック2つ

まず、重複行の基準を定義してくださいテーブルから重複レコードを見つける方法の一つは、GROUP BYとHAVINGですもう一つの方...

機械学習

大規模言語モデルの評価:包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう

LLMは、言語処理(NLP)の考え方を変えましたが、評価の問題は解決されていません。古い基準はやがて無意味になります。なぜ...

AI研究

「MITのインドの学生が声を必要としない会話デバイスを開発」

魅力的な進展として、名門マサチューセッツ工科大学(MIT)の学生が革新的なAI対応デバイス、AlterEgoを紹介しました。AlterE...

人工知能

AIのアナロジカルな推論能力:人間の知能に挑戦する?

「類推的推論」とは、未知の問題を既知の問題と類似点を見つけながら解決する人間特有の能力であり、長らく人間の認知機能の...

AIテクノロジー

「注目メカニズムの解読:トランスフォーマーモデルにおける最大幅解法に向けて」

アテンションメカニズムは、自然言語処理と大規模な言語モデルにおいて重要な役割を果たしてきました。アテンションメカニズ...

AIニュース

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

人工知能の絶え間なく進化する世界で、OpenAIは革命的なアップデートを解放しました。それは、私たちが機械とどのようにイン...