「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」

Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案 Apple researchers propose an end-to-end network that generates detailed 3D reconstruction from posed images.

GTA-5をプレイしたことはありますか?ゲーム内の3Dグラフィックには感動します。平面上の2Dグラフィックとは異なり、3Dグラフィックは奥行きと透視図をシミュレートし、よりリアルで没入感のある映像を実現します。これらのグラフィックは、ビデオゲーム、映画制作、建築ビジュアライゼーション、医療画像、仮想現実など、さまざまな分野で広く利用されています。

3Dモデルを作成する従来の方法は、入力画像の深度マップを推定し、それらを統合して3Dモデルを作成することでした。Appleとカリフォルニア大学サンタバーバラ校の研究者チームは、従来のテスト時最適化の方法を使用しないで、ディープニューラルネットワークを使用してシーンレベルの3Dジオメトリを直接推論する手法を開発しました。

従来の方法では、透明な部分や低テクスチャの表面が深度マップと一致しないため、ジオメトリが欠落したりアーティファクトが発生したりすることがありました。研究者のアプローチでは、画像をボクセルグリッドに投影し、3D畳み込みニューラルネットワークを使用してシーンの切り詰められた符号付き距離関数(TSDF)を直接予測します。

畳み込みニューラルネットワーク(CNN)は、主に画像や動画を処理・分析するために設計された特殊な人工ニューラルネットワークです。この技術を使用する利点は、CNNが学習し、低テクスチャや透明な領域のギャップを埋めることができる滑らかで一貫した表面を生成できることです。

研究者は、トレーニング中にモデルのボクセルグリッドに合わせて真のTSDFをサンプリングするために三次補間を使用しました。この三次補間サンプリングは、トレーニングセッションで詳細にランダムノイズを追加しました。これを克服するために、彼らは真のTSDFがよく知られている正確なポイントでのみ教師あり予測を考慮し、この方法により結果が10%改善されました。

ボクセルは、ボリュームピクセルの略称です。それは、2D画像のポイントを表すピクセルと同様に、グリッド内の3D空間のポイントを表します。既存のボクセルは4cm以上であり、自然画像で見られる幾何学的な詳細を解決するのに十分ではなく、ボクセルの解像度を高めるのは費用がかかります。彼らは、CNNグリッド機能を使用してこの問題を解決し、画像特徴をクエリポイントに直接投影しました。

各入力画像から各ボクセルへの特徴のサンプリングには、密なバックプロジェクションが必要でした。しかし、バックプロジェクションボリュームでぼやけが発生しました。これを解決するために、彼らは初期のマルチビューステレオ深度推定を使用し、特徴ボリュームを向上させました。

研究者は、彼らの手法がネットワークが詳細な情報を学習し、追加のトレーニングや3D畳み込みレベルを必要とせずに出力解像度を自由に選択できるようにする鍵であると主張しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「FP8を用いたPyTorchトレーニング作業の高速化」

過去数年間、AIの分野では革命的な進展が見られており、特に最近のChatGPTなどのLLMベースのアプリケーションの人気と普及を...

機械学習

このAI論文は、「MATLABER:マテリアルを意識したテキストから3D生成のための新しい潜在的BRDFオートエンコーダ」を提案しています

3Dアセットの開発は、ゲーム、映画、AR/VRなど、多くの商業応用において不可欠です。従来の3Dアセット開発プロセスでは、多く...

機械学習

「Nvidiaが革命的なAIチップを発表し、生成型AIアプリケーションを急速に強化する」

技術が常に限界を押し上げる時代において、Nvidiaは再びその名を刻みました。同社はGH200 Grace Hopper Superchipを発売しま...

AIニュース

「受賞者たちは創造的AIのハイプを超えて見据える」

今年のハイデルベルク理論賞フォーラムに参加する人々は、技術の将来の応用に期待しています

AI研究

Airbnbの研究者がChrononを開発:機械学習モデルの本番用機能を開発するためのフレームワーク

機械学習の絶え間なく進化する風景において、特徴管理はAirbnbのMLエンジニアにとって重要な課題となっています。彼らはさま...

AI研究

メタAIの研究者がRA-DITを導入:知識集約型タスクのための高度な検索機能を持つ言語モデルの改善のための新しい人工知能アプローチとして

“`html 大規模な言語モデル(LLM)の制約や非一般的な知識の捉えを困難にする問題、そして広範な事前トレーニングの高...