この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

「Consistent4D」を紹介:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成する新時代のAI手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。この能力は、デジタルコンテンツの制作、自律型車両のシミュレーション、医療画像の解析など、さまざまなアプリケーションにおいて重要です。しかし、一つの単眼のビデオ観察からこのような情報を抽出することは、動的な3D信号の複雑な性質のために困難な課題です。

移動オブジェクトを再構築するための既存の多くの手法は、入力として同期したマルチビュー映像が必要であり、カメラをテレポートするなどの手法や準静的なシーンを使用した、効果的なマルチビューキューが豊富なトレーニングデータを前提としています。それにもかかわらず、これらの手法は、カメラレンズによってキャプチャされないシーンの要素を正確に再構築する際に困難に直面します。さらに、同期したカメラセットアップと正確なキャリブレーションに依存することは、これらの手法の現実世界での実用性を制限します。

CASIA、南京大学、および復旦大学による新しい研究は、2Dソースから4Dコンテンツを生成するために設計された画期的な方法であるConsistent 4Dを紹介しています。この手法は、テキストから3Dへの最近の進歩と画像から3Dへの技術向上を参考にしており、テール型のCascade DyNeRFを利用して動くオブジェクトを視覚化し、同時に事前トレーニングされた2D拡散モデルを使用してDyNeRFの最適化プロセスを制御します。

その論文の中で述べられているように、主な課題は時間的な一貫性と空間的な一貫性の両方を保持することです。この課題に対処するために、研究者はトレーニングされたビデオ補間モデルに依存するインターポレーション駆動型の一貫性ロス(ICL)を使用し、空間と時間の両方にわたる一貫した監視信号の生成を可能にしています。特に、ICLロスの導入により、4D開発の信頼性が向上するだけでなく、3Dクリエーションにおける一般的な問題を軽減することができます。さらに、彼らは動的なNeRF生成ビデオを後処理するために、シンプルなビデオエンハンサーでトレーニングを行います。

綿密なテストによる励ましの結果は、合成および実際のインターネットビデオの両方を含む、ビデオから4Dへの創造の未開拓の領域での有望な進展を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIパワードテックカンパニーが、食品小売業者に供給チェーン管理での新たなスタートを支援します

低く垂れ下がっている果物について話しましょう。Afreshは、食品ロスを減らすために供給チェーンを効率化するAIスタートアッ...

機械学習

「グラフ注意ネットワーク論文のイラストとPyTorchによる実装の説明」

グラフニューラルネットワーク(GNN)は、グラフ構造のデータに作用する強力なニューラルネットワークの一種ですノードのロー...

人工知能

「xAI:イーロン・マスクの新しいAIベンチャーがウェブサイトの公開と共にそのミッションを明らかにする」

イーロン・マスクの最新の人工知能分野における冒険、xAIは、新しいウェブサイトのローンチにより、重要な一歩を踏み出しまし...

データサイエンス

AIフロンティアシリーズ:人材

私が初めて参加した「多業種のブレストセッション」から約3年が経ち、かつて野心的だと考えられていた機械学習の概念が、今で...

AI研究

「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸...

AIテクノロジー

「コードレスのソリューションでAIを民主化する」

急成長するAI企業Pixisの最高技術責任者(CTO)として、私とチームは常に成長するマーケティングセクター向けにAIを民主化す...