センスタイムリサーチは、長文から人間の動きと軌跡を生成するための新しい人工知能アプローチ「Story-to-Motion」を提案しています

センスタイムリサーチが提案する新しい人工知能アプローチ「ストーリーからモーションへ」

人工知能はほとんどの産業に進出しています。ストーリーから自然な人間の動きを作り出すことは、アニメーション、ビデオゲーム、映画の産業を完全に変革する力を持っています。最も困難なタスクの一つは、キャラクターが異なるエリアを移動し、特定のアクションを行う必要がある場合のストーリーからモーションへの変換です。詳細な説明を基に、このタスクは高レベルのモーションセマンティック制御と軌跡を扱う低レベル制御のスムーズな統合を必要とします。

テキストからモーションやキャラクターコントロールに多くの努力が注がれてきましたが、適切な解決策はまだ見つかっていません。既存のキャラクターコントロール手法には多くの制約があり、テキストの説明に対応することができません。現在のテキストからモーション手法でも、より多くの位置制約が必要であり、不安定なモーションが生成される結果となります。

これらの課題を克服するために、研究者のチームが独自のアプローチを導入しました。このアプローチは、入力テキストに合わせて制御されたトラジェクトリと連続的かつ無限に長いモーションを生成するのに非常に効果的です。提案されたアプローチには以下の3つの主要なコンポーネントがあります。

  1. テキストによるモーションスケジューリング:現代の大規模な自然言語モデルは、長いテキストの説明からテキストによるモーションスケジューラとして、テキスト、位置、期間のペアを取ります。この段階では、生成されるモーションがストーリーに基づいており、各アクションの位置と長さについての詳細も含まれます。
  1. テキストによるモーションリトリーバルシステム:モーションのマッチングと制約によってトラジェクトリとセマンティックの組み合わせで総合的なモーションリトリーバルシステムを作成しました。これにより、生成されるモーションがテキストの説明に沿ったセマンティックと位置の特性を満たすことが保証されます。
  1. プログレッシブマスクトランスフォーマ:フットスライディングや異常な姿勢といった遷移モーションの頻繁なアーティファクトに対処するために、プログレッシブマスクトランスフォーマが設計されました。この要素は、生成されるモーションの品質を向上させ、スムーズなトランジションとより現実的な外観を持つアニメーションを生成する上で不可欠です。

チームは、このアプローチをモーションのブレンディング、時間的なアクションの合成、軌跡の追跡という3つの異なるサブタスクでテストしたと共有しています。評価の結果、これまでのモーション合成技術と比較して、すべての領域で性能が向上したことが示されました。研究者は、主な貢献を以下のようにまとめています。

  1. 詳細なテキストの説明から包括的なモーションを生成するために、軌跡とセマンティクスが導入され、ストーリーからモーションへの問題が解決されました。
  1. 正確かつカスタマイズ可能なモーション合成を提供するために、広範なテキスト入力を使用する新しい方法であるテキストベースのモーションマッチングが提案されました。
  1. ベンチマークデータセットで実施された実験によって示されるように、軌跡の追跡、時間的なアクションの合成、モーションのブレンディングのサブタスクで、このアプローチは最先端の技術を凌駕しています。

まとめると、このシステムはテキストナラティブからの人間のモーション合成において、大きな進歩です。ストーリーからモーションの問題に関連する課題に完全な解答を提供します。アニメーション、ゲーム、映画の業界に革新的な影響を与えることでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIは本当に低品質な画像から顔の詳細を復元できるのでしょうか? DAEFRとは何か:品質向上のためのデュアルブランチフレームワークに出会う」

画像処理の分野では、劣化した顔写真から高精細な情報を回復することは依然として困難な課題です。これらの画像が受ける多く...

機械学習

『私をすばやく中心に置いてください:主題拡散は、オープンドメインのパーソナライズされたテキストから画像生成を実現できるAIモデルです』

テキストから画像へのモデルは、過去1年間のAIの議論の中心でした。この分野の進歩は非常に迅速に起こり、その結果、印象的な...

機械学習

「言葉から世界へ:AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」

言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲー...

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

データサイエンス

「多数から少数へ:機械学習における次元削減による高次元データの取り扱い」

この記事では、機械学習の問題における次元の呪いと、その問題の解決策としての次元削減について議論します時には、機械学習...