スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました

スタンフォード大学とFAIR Metaの研究者が、画期的なAI手法CHOIS(言語に基づくリアルな3D人物と物体の相互作用を合成する)を発表

CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシーン内のオブジェクトと人間の同期した動きの生成の問題に取り組みました。このシステムは、疎なオブジェクトウェイポイント、物事と人間の最初の状態、テキストの説明に基づいて操作されます。指定された3D環境内で、両方のエンティティの現実的で制御可能な動きを生成することで、人間とオブジェクトの相互作用を制御します。

AMASSなどの大規模で高品質なモーションキャプチャデータセットを活用することで、アクション条件付きの合成やテキスト条件付きの合成を含む、生成的な人間の動きのモデリングへの関心が高まっています。以前の研究では、テキストから多様な人間の動きを生成するためにVAE形式が使用されていましたが、CHOISは人間とオブジェクトの相互作用に重点を置いています。手の動きの合成に焦点を当てる既存の手法とは異なり、CHOISはオブジェクトの掴む前の全身の動きを考慮し、人間の動きに基づいてオブジェクトの動きを予測することで、多様な3Dシーンにおける相互作用の包括的な解決策を提供します。

CHOISは、コンピュータグラフィックス、エンボディドAI、ロボット工学にとって重要な3D環境での現実的な人間の行動の合成のための重要なニーズに対応しています。CHOISは、言語の説明、初期状態、疎なオブジェクトウェイポイントに基づいて同期した人間とオブジェクトの動きを生成し、現実的な動きの生成、環境の混雑への対応、言語の説明からの相互作用の合成といった課題に取り組んでおり、多様な3Dシーンにおける制御可能な人間-オブジェクトの相互作用の包括的なシステムを提供しています。

このモデルは、言語の説明、オブジェクトのジオメトリ、初期状態に基づいて同期したオブジェクトと人間の動きを生成するために、条件付きの拡散手法を使用しています。サンプリングプロセス中に制約を組み込むことで、現実的な人間とオブジェクトの接触を保証しています。トレーニングフェーズでは、接触制約を明示的に強制することなく、オブジェクトの変換を予測するための損失関数を使用してモデルを誘導します。

CHOISシステムは、ベースラインと抜粋に対して厳密な評価が行われており、条件の一致、接触の正確性、手とオブジェクトの貫通の削減、足の浮遊などのメトリクスで優れたパフォーマンスを示しています。FullBodyManipulationデータセットでは、オブジェクトのジオメトリ損失がモデルの能力を向上させています。3D-FUTUREデータセットでは、CHOISはベースラインを上回る性能を示し、新しいオブジェクトへの汎化能力を示しています。人間の主観的研究では、入力テキストとのより良い整合性と、ベースラインと比較して優れた相互作用品質を強調しています。位置と姿勢の誤差などの定量的なメトリクスは、生成された結果の地面の真実の動きからの乖離を測定します。

結論として、CHOISは言語の説明と疎なオブジェクトウェイポイントに基づいて現実的な人間-オブジェクトの相互作用を生成するシステムです。手順では、トレーニング中にオブジェクトのジオメトリ損失を考慮し、サンプリング中に効果的なガイダンス用語を使用して結果のリアリティを向上させています。CHOISで学習された相互作用モジュールは、言語と3Dシーンからのオブジェクトウェイポイントに基づいて長期的な相互作用を生成するパイプラインに統合することができます。CHOISは、提供された言語の説明と一致する現実的な人間-オブジェクトの相互作用の生成において、大幅な改善を遂げています。

今後の研究では、入力ウェイポイントとのオブジェクト動きの一致度を向上させるために、オブジェクトのジオメトリ損失などの追加の監視を統合することができます。接触制約を強制するための高度なガイダンス用語の検討は、より現実的な結果につながる可能性があります。多様なデータセットとシナリオへの評価の拡張により、CHOISの一般化能力をテストすることができます。さらなる人間の主観的な研究は、生成された相互作用についてより深い洞察を提供するでしょう。3Dシーンからのオブジェクトウェイポイントを基に、学習された相互作用モジュールを適用して長期的な相互作用を生成することも、CHOISの適用範囲を拡大することになります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

大規模な言語モデルは本当に数学をできるのか?この人工知能AIの研究はMathGLMを紹介します:計算機なしで数学問題を解くための頑健なモデル

下流の自然言語処理(NLP)タスクにおいて、大規模言語モデル(LLMs)は非常に効果的であることが証明されています。GPT4やCh...

機械学習

TinyML アプリケーション、制限、およびIoT&エッジデバイスでの使用

過去数年間、人工知能(AI)と機械学習(ML)は、産業だけでなく学界でも人気と応用が急速に広まってきましたしかし、現在のM...

データサイエンス

7月号 データサイエンティストのための気候リソース

多くの人にとって、夏の訪れは以前は単純な興奮の原因でした:学校が終わる、仕事のスケジュールは少し忙しくないことが多い...

AI研究

『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュ...

データサイエンス

Generating AI(AIを生成する) vs マシンラーニング(機械学習):区別の解読

「ジェネラティブAIと機械学習を使ってデータ駆動型の意思決定の世界を探検しましょうデータ変換におけるそれぞれの違いと役...