スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました

スタンフォード大学とFAIR Metaの研究者が、画期的なAI手法CHOIS(言語に基づくリアルな3D人物と物体の相互作用を合成する)を発表

CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシーン内のオブジェクトと人間の同期した動きの生成の問題に取り組みました。このシステムは、疎なオブジェクトウェイポイント、物事と人間の最初の状態、テキストの説明に基づいて操作されます。指定された3D環境内で、両方のエンティティの現実的で制御可能な動きを生成することで、人間とオブジェクトの相互作用を制御します。

AMASSなどの大規模で高品質なモーションキャプチャデータセットを活用することで、アクション条件付きの合成やテキスト条件付きの合成を含む、生成的な人間の動きのモデリングへの関心が高まっています。以前の研究では、テキストから多様な人間の動きを生成するためにVAE形式が使用されていましたが、CHOISは人間とオブジェクトの相互作用に重点を置いています。手の動きの合成に焦点を当てる既存の手法とは異なり、CHOISはオブジェクトの掴む前の全身の動きを考慮し、人間の動きに基づいてオブジェクトの動きを予測することで、多様な3Dシーンにおける相互作用の包括的な解決策を提供します。

CHOISは、コンピュータグラフィックス、エンボディドAI、ロボット工学にとって重要な3D環境での現実的な人間の行動の合成のための重要なニーズに対応しています。CHOISは、言語の説明、初期状態、疎なオブジェクトウェイポイントに基づいて同期した人間とオブジェクトの動きを生成し、現実的な動きの生成、環境の混雑への対応、言語の説明からの相互作用の合成といった課題に取り組んでおり、多様な3Dシーンにおける制御可能な人間-オブジェクトの相互作用の包括的なシステムを提供しています。

このモデルは、言語の説明、オブジェクトのジオメトリ、初期状態に基づいて同期したオブジェクトと人間の動きを生成するために、条件付きの拡散手法を使用しています。サンプリングプロセス中に制約を組み込むことで、現実的な人間とオブジェクトの接触を保証しています。トレーニングフェーズでは、接触制約を明示的に強制することなく、オブジェクトの変換を予測するための損失関数を使用してモデルを誘導します。

CHOISシステムは、ベースラインと抜粋に対して厳密な評価が行われており、条件の一致、接触の正確性、手とオブジェクトの貫通の削減、足の浮遊などのメトリクスで優れたパフォーマンスを示しています。FullBodyManipulationデータセットでは、オブジェクトのジオメトリ損失がモデルの能力を向上させています。3D-FUTUREデータセットでは、CHOISはベースラインを上回る性能を示し、新しいオブジェクトへの汎化能力を示しています。人間の主観的研究では、入力テキストとのより良い整合性と、ベースラインと比較して優れた相互作用品質を強調しています。位置と姿勢の誤差などの定量的なメトリクスは、生成された結果の地面の真実の動きからの乖離を測定します。

結論として、CHOISは言語の説明と疎なオブジェクトウェイポイントに基づいて現実的な人間-オブジェクトの相互作用を生成するシステムです。手順では、トレーニング中にオブジェクトのジオメトリ損失を考慮し、サンプリング中に効果的なガイダンス用語を使用して結果のリアリティを向上させています。CHOISで学習された相互作用モジュールは、言語と3Dシーンからのオブジェクトウェイポイントに基づいて長期的な相互作用を生成するパイプラインに統合することができます。CHOISは、提供された言語の説明と一致する現実的な人間-オブジェクトの相互作用の生成において、大幅な改善を遂げています。

今後の研究では、入力ウェイポイントとのオブジェクト動きの一致度を向上させるために、オブジェクトのジオメトリ損失などの追加の監視を統合することができます。接触制約を強制するための高度なガイダンス用語の検討は、より現実的な結果につながる可能性があります。多様なデータセットとシナリオへの評価の拡張により、CHOISの一般化能力をテストすることができます。さらなる人間の主観的な研究は、生成された相互作用についてより深い洞察を提供するでしょう。3Dシーンからのオブジェクトウェイポイントを基に、学習された相互作用モジュールを適用して長期的な相互作用を生成することも、CHOISの適用範囲を拡大することになります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

OpenAIは、GPTBotを導入しましたこれは、インターネット全体からデータを自動的にスクレイピングするために設計されたウェブクローラです

OpenAIは、公開ウェブサイトでのデータ収集に起因するプライバシーや知的財産権の懸念に対応するため、GPTBotと呼ばれる新し...

AIニュース

『チャットボットは実際に認識されるよりも頻繁に「幻覚」を見るかもしれない』

「新しいスタートアップの研究によると、ChatGPT技術は事実をまとめる際に約3%の割合ででっち上げをすることがありますGoogl...

AI研究

「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」

ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとする...

コンピュータサイエンス

「生成AIツールが自己学習のためのテキストを急速に使い尽くしている」

「OpenAIや他のAI開発者のデータ収集プラクティスに関する最新の懸念が提起されています」

機械学習

「SelFeeに会いましょう:自己フィードバック生成によって強化された反復的自己修正LLM」

最近の研究では、自然言語フィードバックが言語モデルの性能向上に効果的であることが示されています。KAISTの研究チームは、...

AI研究

XLang NLP研究所の研究者がLemurを提案:テキストとコードの能力をバランスさせた最先端のオープンプリトレーニング済み大規模言語モデル

言語とテクノロジーの交差点によってますます推進される世界において、多目的かつ強力な言語モデルの需要はかつてなく高まっ...