センスタイムリサーチは、長文から人間の動きと軌跡を生成するための新しい人工知能アプローチ「Story-to-Motion」を提案しています

センスタイムリサーチが提案する新しい人工知能アプローチ「ストーリーからモーションへ」

人工知能はほとんどの産業に進出しています。ストーリーから自然な人間の動きを作り出すことは、アニメーション、ビデオゲーム、映画の産業を完全に変革する力を持っています。最も困難なタスクの一つは、キャラクターが異なるエリアを移動し、特定のアクションを行う必要がある場合のストーリーからモーションへの変換です。詳細な説明を基に、このタスクは高レベルのモーションセマンティック制御と軌跡を扱う低レベル制御のスムーズな統合を必要とします。

テキストからモーションやキャラクターコントロールに多くの努力が注がれてきましたが、適切な解決策はまだ見つかっていません。既存のキャラクターコントロール手法には多くの制約があり、テキストの説明に対応することができません。現在のテキストからモーション手法でも、より多くの位置制約が必要であり、不安定なモーションが生成される結果となります。

これらの課題を克服するために、研究者のチームが独自のアプローチを導入しました。このアプローチは、入力テキストに合わせて制御されたトラジェクトリと連続的かつ無限に長いモーションを生成するのに非常に効果的です。提案されたアプローチには以下の3つの主要なコンポーネントがあります。

  1. テキストによるモーションスケジューリング:現代の大規模な自然言語モデルは、長いテキストの説明からテキストによるモーションスケジューラとして、テキスト、位置、期間のペアを取ります。この段階では、生成されるモーションがストーリーに基づいており、各アクションの位置と長さについての詳細も含まれます。
  1. テキストによるモーションリトリーバルシステム:モーションのマッチングと制約によってトラジェクトリとセマンティックの組み合わせで総合的なモーションリトリーバルシステムを作成しました。これにより、生成されるモーションがテキストの説明に沿ったセマンティックと位置の特性を満たすことが保証されます。
  1. プログレッシブマスクトランスフォーマ:フットスライディングや異常な姿勢といった遷移モーションの頻繁なアーティファクトに対処するために、プログレッシブマスクトランスフォーマが設計されました。この要素は、生成されるモーションの品質を向上させ、スムーズなトランジションとより現実的な外観を持つアニメーションを生成する上で不可欠です。

チームは、このアプローチをモーションのブレンディング、時間的なアクションの合成、軌跡の追跡という3つの異なるサブタスクでテストしたと共有しています。評価の結果、これまでのモーション合成技術と比較して、すべての領域で性能が向上したことが示されました。研究者は、主な貢献を以下のようにまとめています。

  1. 詳細なテキストの説明から包括的なモーションを生成するために、軌跡とセマンティクスが導入され、ストーリーからモーションへの問題が解決されました。
  1. 正確かつカスタマイズ可能なモーション合成を提供するために、広範なテキスト入力を使用する新しい方法であるテキストベースのモーションマッチングが提案されました。
  1. ベンチマークデータセットで実施された実験によって示されるように、軌跡の追跡、時間的なアクションの合成、モーションのブレンディングのサブタスクで、このアプローチは最先端の技術を凌駕しています。

まとめると、このシステムはテキストナラティブからの人間のモーション合成において、大きな進歩です。ストーリーからモーションの問題に関連する課題に完全な解答を提供します。アニメーション、ゲーム、映画の業界に革新的な影響を与えることでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AnyLocによる最新のビジュアル位置認識(VPR)の汎用方法について紹介します」

人工知能の分野は常に進化しており、ロボット工学などのさまざまな用途に取り入れられています。ビジュアルプレースリコグニ...

AI研究

MITの研究者が、生成プロセスの改善のために「リスタートサンプリング」を導入

微分方程式ベースの深層生成モデルは、最近、画像合成から生物学までのさまざまな分野で、高次元データのモデリングにおいて...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

データサイエンス

このAI研究は、「ニューラルA *:パスプランニング問題のための新しいデータ駆動型検索方法」というタイトルで発表されました

パスプランニングは、環境マップ内の初期点から目標点への費用効果の高い有効なパスを特定するものです。パスプランニングの...

AIニュース

「2023年最高のAIプレゼンテーションツール」

現代のプレゼンテーションソフトウェアは、静止画のスライドと基本的なトランジションの時代を超えています。人工知能(AI)...

機械学習

役に立つセンサーがAI in a Boxを立ち上げる

「あなた自身のプライベートで安全なAIボックスを持ってみたいですか?全部のアプリ、不快感はなしでそれがUseful Sensorsが...