この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法
「Consistent4D」を紹介:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成する新時代のAI手法
コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。この能力は、デジタルコンテンツの制作、自律型車両のシミュレーション、医療画像の解析など、さまざまなアプリケーションにおいて重要です。しかし、一つの単眼のビデオ観察からこのような情報を抽出することは、動的な3D信号の複雑な性質のために困難な課題です。
移動オブジェクトを再構築するための既存の多くの手法は、入力として同期したマルチビュー映像が必要であり、カメラをテレポートするなどの手法や準静的なシーンを使用した、効果的なマルチビューキューが豊富なトレーニングデータを前提としています。それにもかかわらず、これらの手法は、カメラレンズによってキャプチャされないシーンの要素を正確に再構築する際に困難に直面します。さらに、同期したカメラセットアップと正確なキャリブレーションに依存することは、これらの手法の現実世界での実用性を制限します。
CASIA、南京大学、および復旦大学による新しい研究は、2Dソースから4Dコンテンツを生成するために設計された画期的な方法であるConsistent 4Dを紹介しています。この手法は、テキストから3Dへの最近の進歩と画像から3Dへの技術向上を参考にしており、テール型のCascade DyNeRFを利用して動くオブジェクトを視覚化し、同時に事前トレーニングされた2D拡散モデルを使用してDyNeRFの最適化プロセスを制御します。
- デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです
- 中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し
- スタンフォードの研究者たちは「CORNN」という機械学習手法を紹介します:大規模な脳神経記録のリアルタイム分析のためのものです
その論文の中で述べられているように、主な課題は時間的な一貫性と空間的な一貫性の両方を保持することです。この課題に対処するために、研究者はトレーニングされたビデオ補間モデルに依存するインターポレーション駆動型の一貫性ロス(ICL)を使用し、空間と時間の両方にわたる一貫した監視信号の生成を可能にしています。特に、ICLロスの導入により、4D開発の信頼性が向上するだけでなく、3Dクリエーションにおける一般的な問題を軽減することができます。さらに、彼らは動的なNeRF生成ビデオを後処理するために、シンプルなビデオエンハンサーでトレーニングを行います。
綿密なテストによる励ましの結果は、合成および実際のインターネットビデオの両方を含む、ビデオから4Dへの創造の未開拓の領域での有望な進展を示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Johns Hopkins Medicineの研究者たちは、正確な骨肉腫壊死計算のための機械学習モデルを開発しました」
- スタンフォード大学の研究者がRT-Sketchを紹介します:目標仕様としての手描きスケッチを通じた視覚模倣学習の向上
- UCSDの研究者が、チューリングテストでのGPT-4のパフォーマンスを評価:人間のような欺瞞とコミュニケーション戦略のダイナミクスを明らかにする
- マイクロソフトの研究者たちは「エモーションプロンプト」を発表しました:複数の言語モデルにおけるAIの感情的知性を向上させる
- インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています
- マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました:大規模な言語モデルのトレーニング効率を超高速化します
- 「MIT研究者がLILOを導入:プログラム合成のための解釈可能なライブラリを学ぶための神経シンボリックフレームワーク」