この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

「Consistent4D」を紹介:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成する新時代のAI手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。この能力は、デジタルコンテンツの制作、自律型車両のシミュレーション、医療画像の解析など、さまざまなアプリケーションにおいて重要です。しかし、一つの単眼のビデオ観察からこのような情報を抽出することは、動的な3D信号の複雑な性質のために困難な課題です。

移動オブジェクトを再構築するための既存の多くの手法は、入力として同期したマルチビュー映像が必要であり、カメラをテレポートするなどの手法や準静的なシーンを使用した、効果的なマルチビューキューが豊富なトレーニングデータを前提としています。それにもかかわらず、これらの手法は、カメラレンズによってキャプチャされないシーンの要素を正確に再構築する際に困難に直面します。さらに、同期したカメラセットアップと正確なキャリブレーションに依存することは、これらの手法の現実世界での実用性を制限します。

CASIA、南京大学、および復旦大学による新しい研究は、2Dソースから4Dコンテンツを生成するために設計された画期的な方法であるConsistent 4Dを紹介しています。この手法は、テキストから3Dへの最近の進歩と画像から3Dへの技術向上を参考にしており、テール型のCascade DyNeRFを利用して動くオブジェクトを視覚化し、同時に事前トレーニングされた2D拡散モデルを使用してDyNeRFの最適化プロセスを制御します。

その論文の中で述べられているように、主な課題は時間的な一貫性と空間的な一貫性の両方を保持することです。この課題に対処するために、研究者はトレーニングされたビデオ補間モデルに依存するインターポレーション駆動型の一貫性ロス(ICL)を使用し、空間と時間の両方にわたる一貫した監視信号の生成を可能にしています。特に、ICLロスの導入により、4D開発の信頼性が向上するだけでなく、3Dクリエーションにおける一般的な問題を軽減することができます。さらに、彼らは動的なNeRF生成ビデオを後処理するために、シンプルなビデオエンハンサーでトレーニングを行います。

綿密なテストによる励ましの結果は、合成および実際のインターネットビデオの両方を含む、ビデオから4Dへの創造の未開拓の領域での有望な進展を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

mPLUG-Owl2をご紹介しますこれは、モダリティの協力によってマルチモーダルな大規模言語モデル(MLLMs)を変換するマルチモーダルファウンデーションモデルです

大型言語モデルは、人間の能力を模倣する能力により人工知能コミュニティを魅了しています。優れたテキスト理解と生成能力を...

データサイエンス

分子の言語を学び、その特性を予測する

このAIシステムは、分子の特性を予測するためにわずかな量のデータしか必要としませんこれにより、薬物の発見や材料の開発を...

AI研究

「AIが家庭用ロボットの計画時間を半分に減らすのを手助けします」

「PIGINetは機械学習を活用して、複雑な環境で実行可能な解決策を評価・フィルタリングすることで、家庭用ロボットのタスクと...

機械学習

「異常検知への推測を排除する:ヒストグラムが閾値を設定します」

『異常検知の領域において、隠れた異常を追求することは、データの広大な風景の中で隠された宝物を探し求めることに似ていま...

機械学習

ウィザードコーダー:最高のコーディングモデルとは何でしょう

このブログでは、WizardCoderとは何か、そしてなぜそれがフィールドで最高のコーディングモデルとして際立っているのかについ...