スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました

スタンフォード大学とFAIR Metaの研究者が、画期的なAI手法CHOIS(言語に基づくリアルな3D人物と物体の相互作用を合成する)を発表

CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシーン内のオブジェクトと人間の同期した動きの生成の問題に取り組みました。このシステムは、疎なオブジェクトウェイポイント、物事と人間の最初の状態、テキストの説明に基づいて操作されます。指定された3D環境内で、両方のエンティティの現実的で制御可能な動きを生成することで、人間とオブジェクトの相互作用を制御します。

AMASSなどの大規模で高品質なモーションキャプチャデータセットを活用することで、アクション条件付きの合成やテキスト条件付きの合成を含む、生成的な人間の動きのモデリングへの関心が高まっています。以前の研究では、テキストから多様な人間の動きを生成するためにVAE形式が使用されていましたが、CHOISは人間とオブジェクトの相互作用に重点を置いています。手の動きの合成に焦点を当てる既存の手法とは異なり、CHOISはオブジェクトの掴む前の全身の動きを考慮し、人間の動きに基づいてオブジェクトの動きを予測することで、多様な3Dシーンにおける相互作用の包括的な解決策を提供します。

CHOISは、コンピュータグラフィックス、エンボディドAI、ロボット工学にとって重要な3D環境での現実的な人間の行動の合成のための重要なニーズに対応しています。CHOISは、言語の説明、初期状態、疎なオブジェクトウェイポイントに基づいて同期した人間とオブジェクトの動きを生成し、現実的な動きの生成、環境の混雑への対応、言語の説明からの相互作用の合成といった課題に取り組んでおり、多様な3Dシーンにおける制御可能な人間-オブジェクトの相互作用の包括的なシステムを提供しています。

このモデルは、言語の説明、オブジェクトのジオメトリ、初期状態に基づいて同期したオブジェクトと人間の動きを生成するために、条件付きの拡散手法を使用しています。サンプリングプロセス中に制約を組み込むことで、現実的な人間とオブジェクトの接触を保証しています。トレーニングフェーズでは、接触制約を明示的に強制することなく、オブジェクトの変換を予測するための損失関数を使用してモデルを誘導します。

CHOISシステムは、ベースラインと抜粋に対して厳密な評価が行われており、条件の一致、接触の正確性、手とオブジェクトの貫通の削減、足の浮遊などのメトリクスで優れたパフォーマンスを示しています。FullBodyManipulationデータセットでは、オブジェクトのジオメトリ損失がモデルの能力を向上させています。3D-FUTUREデータセットでは、CHOISはベースラインを上回る性能を示し、新しいオブジェクトへの汎化能力を示しています。人間の主観的研究では、入力テキストとのより良い整合性と、ベースラインと比較して優れた相互作用品質を強調しています。位置と姿勢の誤差などの定量的なメトリクスは、生成された結果の地面の真実の動きからの乖離を測定します。

結論として、CHOISは言語の説明と疎なオブジェクトウェイポイントに基づいて現実的な人間-オブジェクトの相互作用を生成するシステムです。手順では、トレーニング中にオブジェクトのジオメトリ損失を考慮し、サンプリング中に効果的なガイダンス用語を使用して結果のリアリティを向上させています。CHOISで学習された相互作用モジュールは、言語と3Dシーンからのオブジェクトウェイポイントに基づいて長期的な相互作用を生成するパイプラインに統合することができます。CHOISは、提供された言語の説明と一致する現実的な人間-オブジェクトの相互作用の生成において、大幅な改善を遂げています。

今後の研究では、入力ウェイポイントとのオブジェクト動きの一致度を向上させるために、オブジェクトのジオメトリ損失などの追加の監視を統合することができます。接触制約を強制するための高度なガイダンス用語の検討は、より現実的な結果につながる可能性があります。多様なデータセットとシナリオへの評価の拡張により、CHOISの一般化能力をテストすることができます。さらなる人間の主観的な研究は、生成された相互作用についてより深い洞察を提供するでしょう。3Dシーンからのオブジェクトウェイポイントを基に、学習された相互作用モジュールを適用して長期的な相互作用を生成することも、CHOISの適用範囲を拡大することになります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「FC-CLIPによる全局セグメンテーションの革新:統一された単一段階人工知能AIフレームワーク」

イメージセグメンテーションは、画像を意味のある部分や領域に分割する基本的なコンピュータビジョンのタスクです。 それは、...

データサイエンス

「生データから洗練されたデータへ:データの前処理を通じた旅 - パート1」

私たちの機械学習のタスクに必要なデータは、時々Scikit-Learnや他の機械学習ライブラリでコーディングするための適切な形式...

コンピュータサイエンス

ロボット犬は、人間よりも侵略的なヒアリの巣をより良く見つけることができます

中国とブラジルの科学者たちは、侵入した火蟻の巣を検出するために、ロボット犬と人工知能(AI)をテストしています

データサイエンス

「マスク言語モデリングタスクのBERTトレーニング方法」

「最近、大規模言語モデル(LLM)は、機械学習コミュニティ全体の注目を浴びていますLLMが登場する前には、さまざまな言語モ...

AI研究

スタンフォードの研究者たちは「CORNN」という機械学習手法を紹介します:大規模な脳神経記録のリアルタイム分析のためのものです

技術の進歩により、神経科学の研究分野では新たな時代を迎えました。この非凡な力により、生物の脳機能と行動の微妙な関係を...

機械学習

ウェイモのMotionLMを紹介します:最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル(LLM)が自動車の運転をサポートできるようにする可能性のあるものです

オートリグレッション言語モデルは、あらかじめ定義された文法や構文解析の概念を必要とせずに、文章内の次のサブワードを予...