「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」

Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案 Apple researchers propose an end-to-end network that generates detailed 3D reconstruction from posed images.

GTA-5をプレイしたことはありますか?ゲーム内の3Dグラフィックには感動します。平面上の2Dグラフィックとは異なり、3Dグラフィックは奥行きと透視図をシミュレートし、よりリアルで没入感のある映像を実現します。これらのグラフィックは、ビデオゲーム、映画制作、建築ビジュアライゼーション、医療画像、仮想現実など、さまざまな分野で広く利用されています。

3Dモデルを作成する従来の方法は、入力画像の深度マップを推定し、それらを統合して3Dモデルを作成することでした。Appleとカリフォルニア大学サンタバーバラ校の研究者チームは、従来のテスト時最適化の方法を使用しないで、ディープニューラルネットワークを使用してシーンレベルの3Dジオメトリを直接推論する手法を開発しました。

従来の方法では、透明な部分や低テクスチャの表面が深度マップと一致しないため、ジオメトリが欠落したりアーティファクトが発生したりすることがありました。研究者のアプローチでは、画像をボクセルグリッドに投影し、3D畳み込みニューラルネットワークを使用してシーンの切り詰められた符号付き距離関数(TSDF)を直接予測します。

畳み込みニューラルネットワーク(CNN)は、主に画像や動画を処理・分析するために設計された特殊な人工ニューラルネットワークです。この技術を使用する利点は、CNNが学習し、低テクスチャや透明な領域のギャップを埋めることができる滑らかで一貫した表面を生成できることです。

研究者は、トレーニング中にモデルのボクセルグリッドに合わせて真のTSDFをサンプリングするために三次補間を使用しました。この三次補間サンプリングは、トレーニングセッションで詳細にランダムノイズを追加しました。これを克服するために、彼らは真のTSDFがよく知られている正確なポイントでのみ教師あり予測を考慮し、この方法により結果が10%改善されました。

ボクセルは、ボリュームピクセルの略称です。それは、2D画像のポイントを表すピクセルと同様に、グリッド内の3D空間のポイントを表します。既存のボクセルは4cm以上であり、自然画像で見られる幾何学的な詳細を解決するのに十分ではなく、ボクセルの解像度を高めるのは費用がかかります。彼らは、CNNグリッド機能を使用してこの問題を解決し、画像特徴をクエリポイントに直接投影しました。

各入力画像から各ボクセルへの特徴のサンプリングには、密なバックプロジェクションが必要でした。しかし、バックプロジェクションボリュームでぼやけが発生しました。これを解決するために、彼らは初期のマルチビューステレオ深度推定を使用し、特徴ボリュームを向上させました。

研究者は、彼らの手法がネットワークが詳細な情報を学習し、追加のトレーニングや3D畳み込みレベルを必要とせずに出力解像度を自由に選択できるようにする鍵であると主張しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Amazon SageMaker Feature Store Feature Processorを使用して、MLの洞察を解き放つ」

Amazon SageMaker Feature Storeは、機械学習(ML)のための特徴量エンジニアリングを自動化するためのエンドツーエンドのソ...

機械学習

「より良い機械学習システムの構築 - 第3章:モデリング楽しみが始まります」

こんにちは、お帰りなさいまたここでお会いできてうれしいですあなたがもっと良いプロフェッショナルになりたいという意欲、...

人工知能

人工知能を規制するための競争

なぜヨーロッパがアメリカや中国に比べて優位に立っているのか

機械学習

CoDiに会おう:任意対任意合成のための新しいクロスモーダル拡散モデル

ここ数年、テキストからテキスト、画像、音声など、別の情報を生成する堅牢なクロスモーダルモデルが注目されています。注目...

AIニュース

オラクルがMySQL 8.2を発表し、強化された読み書き分割機能を搭載しました

最近、Oracleは人気のあるリレーショナルデータベース管理システムの進化において重要なマイルストーンとなる、MySQL 8.2の一...

機械学習

iOSアプリの自然言語処理:機能、Siriの使用例、およびプロセス

「自然言語処理を使ってiOSアプリを向上させたいですか?iOSアプリでNLPとは何か、そしてそれを成功させるための統合方法を学...