スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました
スタンフォード大学とFAIR Metaの研究者が、画期的なAI手法CHOIS(言語に基づくリアルな3D人物と物体の相互作用を合成する)を発表
CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシーン内のオブジェクトと人間の同期した動きの生成の問題に取り組みました。このシステムは、疎なオブジェクトウェイポイント、物事と人間の最初の状態、テキストの説明に基づいて操作されます。指定された3D環境内で、両方のエンティティの現実的で制御可能な動きを生成することで、人間とオブジェクトの相互作用を制御します。
AMASSなどの大規模で高品質なモーションキャプチャデータセットを活用することで、アクション条件付きの合成やテキスト条件付きの合成を含む、生成的な人間の動きのモデリングへの関心が高まっています。以前の研究では、テキストから多様な人間の動きを生成するためにVAE形式が使用されていましたが、CHOISは人間とオブジェクトの相互作用に重点を置いています。手の動きの合成に焦点を当てる既存の手法とは異なり、CHOISはオブジェクトの掴む前の全身の動きを考慮し、人間の動きに基づいてオブジェクトの動きを予測することで、多様な3Dシーンにおける相互作用の包括的な解決策を提供します。
CHOISは、コンピュータグラフィックス、エンボディドAI、ロボット工学にとって重要な3D環境での現実的な人間の行動の合成のための重要なニーズに対応しています。CHOISは、言語の説明、初期状態、疎なオブジェクトウェイポイントに基づいて同期した人間とオブジェクトの動きを生成し、現実的な動きの生成、環境の混雑への対応、言語の説明からの相互作用の合成といった課題に取り組んでおり、多様な3Dシーンにおける制御可能な人間-オブジェクトの相互作用の包括的なシステムを提供しています。
- CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展
- テンセントの研究者が「FaceStudio」を発表:アイデンティティ保持を重視したテキストから画像生成の革新的な人工知能アプローチ
- 香港大学和阿里巴巴集团的AI研究揭示了“LivePhoto”:文本控制的视频动画和动作强度定制的重大突破
このモデルは、言語の説明、オブジェクトのジオメトリ、初期状態に基づいて同期したオブジェクトと人間の動きを生成するために、条件付きの拡散手法を使用しています。サンプリングプロセス中に制約を組み込むことで、現実的な人間とオブジェクトの接触を保証しています。トレーニングフェーズでは、接触制約を明示的に強制することなく、オブジェクトの変換を予測するための損失関数を使用してモデルを誘導します。
CHOISシステムは、ベースラインと抜粋に対して厳密な評価が行われており、条件の一致、接触の正確性、手とオブジェクトの貫通の削減、足の浮遊などのメトリクスで優れたパフォーマンスを示しています。FullBodyManipulationデータセットでは、オブジェクトのジオメトリ損失がモデルの能力を向上させています。3D-FUTUREデータセットでは、CHOISはベースラインを上回る性能を示し、新しいオブジェクトへの汎化能力を示しています。人間の主観的研究では、入力テキストとのより良い整合性と、ベースラインと比較して優れた相互作用品質を強調しています。位置と姿勢の誤差などの定量的なメトリクスは、生成された結果の地面の真実の動きからの乖離を測定します。
結論として、CHOISは言語の説明と疎なオブジェクトウェイポイントに基づいて現実的な人間-オブジェクトの相互作用を生成するシステムです。手順では、トレーニング中にオブジェクトのジオメトリ損失を考慮し、サンプリング中に効果的なガイダンス用語を使用して結果のリアリティを向上させています。CHOISで学習された相互作用モジュールは、言語と3Dシーンからのオブジェクトウェイポイントに基づいて長期的な相互作用を生成するパイプラインに統合することができます。CHOISは、提供された言語の説明と一致する現実的な人間-オブジェクトの相互作用の生成において、大幅な改善を遂げています。
今後の研究では、入力ウェイポイントとのオブジェクト動きの一致度を向上させるために、オブジェクトのジオメトリ損失などの追加の監視を統合することができます。接触制約を強制するための高度なガイダンス用語の検討は、より現実的な結果につながる可能性があります。多様なデータセットとシナリオへの評価の拡張により、CHOISの一般化能力をテストすることができます。さらなる人間の主観的な研究は、生成された相互作用についてより深い洞察を提供するでしょう。3Dシーンからのオブジェクトウェイポイントを基に、学習された相互作用モジュールを適用して長期的な相互作用を生成することも、CHOISの適用範囲を拡大することになります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- AI研究でα-CLIPが公開されました ターゲテッドアテンションと強化された制御によるマルチモーダル画像分析の向上
- MITとETH Zurichの研究者たちが、動的なセパレータの選択を通じて、拡張された混合整数線形計画法(MILP)の解決を目的とした機械学習技術を開発しました
- AI2とワシントン大学の研究者が、LLMsの表面的な性質を明らかにし、チューニングフリーの新しい方法であるURIALを紹介した
- 最近の人類学的研究によれば、クロード2.1の戦略的な促進を通じて、プロンプトに単一の追加をすることで、LLMsの記憶容量を70%増加させることができると報告されました
- MITとFAIR Metaの研究者は、「組織化された条件つき画像生成 (Representation-Conditioned Image Generation; RCG):クラス非依存の画像生成における画期的なAIフレームワーク」を発表しました
- 「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です
- 新しいCMUとMetaによるAI研究、PyNeRFの導入:スケールに意識したグリッドベースのレンダリングにおけるニューラル輝度場の進化