「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」

Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案 Apple researchers propose an end-to-end network that generates detailed 3D reconstruction from posed images.

GTA-5をプレイしたことはありますか?ゲーム内の3Dグラフィックには感動します。平面上の2Dグラフィックとは異なり、3Dグラフィックは奥行きと透視図をシミュレートし、よりリアルで没入感のある映像を実現します。これらのグラフィックは、ビデオゲーム、映画制作、建築ビジュアライゼーション、医療画像、仮想現実など、さまざまな分野で広く利用されています。

3Dモデルを作成する従来の方法は、入力画像の深度マップを推定し、それらを統合して3Dモデルを作成することでした。Appleとカリフォルニア大学サンタバーバラ校の研究者チームは、従来のテスト時最適化の方法を使用しないで、ディープニューラルネットワークを使用してシーンレベルの3Dジオメトリを直接推論する手法を開発しました。

従来の方法では、透明な部分や低テクスチャの表面が深度マップと一致しないため、ジオメトリが欠落したりアーティファクトが発生したりすることがありました。研究者のアプローチでは、画像をボクセルグリッドに投影し、3D畳み込みニューラルネットワークを使用してシーンの切り詰められた符号付き距離関数(TSDF)を直接予測します。

畳み込みニューラルネットワーク(CNN)は、主に画像や動画を処理・分析するために設計された特殊な人工ニューラルネットワークです。この技術を使用する利点は、CNNが学習し、低テクスチャや透明な領域のギャップを埋めることができる滑らかで一貫した表面を生成できることです。

研究者は、トレーニング中にモデルのボクセルグリッドに合わせて真のTSDFをサンプリングするために三次補間を使用しました。この三次補間サンプリングは、トレーニングセッションで詳細にランダムノイズを追加しました。これを克服するために、彼らは真のTSDFがよく知られている正確なポイントでのみ教師あり予測を考慮し、この方法により結果が10%改善されました。

ボクセルは、ボリュームピクセルの略称です。それは、2D画像のポイントを表すピクセルと同様に、グリッド内の3D空間のポイントを表します。既存のボクセルは4cm以上であり、自然画像で見られる幾何学的な詳細を解決するのに十分ではなく、ボクセルの解像度を高めるのは費用がかかります。彼らは、CNNグリッド機能を使用してこの問題を解決し、画像特徴をクエリポイントに直接投影しました。

各入力画像から各ボクセルへの特徴のサンプリングには、密なバックプロジェクションが必要でした。しかし、バックプロジェクションボリュームでぼやけが発生しました。これを解決するために、彼らは初期のマルチビューステレオ深度推定を使用し、特徴ボリュームを向上させました。

研究者は、彼らの手法がネットワークが詳細な情報を学習し、追加のトレーニングや3D畳み込みレベルを必要とせずに出力解像度を自由に選択できるようにする鍵であると主張しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

HTMLの要約:IIoTデータのプライバシー保護のためのGANとDPのハイブリッドアプローチ

匿名化は、産業用インターネット・オブ・シングス(IIoT)データの取り扱いにおいて重要な問題です。機械学習(ML)アプリケ...

AI研究

「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、...

AI研究

MITとMeta AIからのこのAI研究は、高度なリアルタイムのロボットにおける手でのオブジェクト再配置のための革新的かつ手ごろな価格のコントローラーを発表します

MITとMeta AIの研究者は、単一の深度カメラを使用して、多様な形状のオブジェクトをリアルタイムに再配置するオブジェクト再...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

機械学習

MosaicMLは、彼らのMPT-30BをApache 2.0の下でリリースしました

MosaicML-7Bの大成功の後、MosaicMLは再び以前に設定した基準を上回りました。新しい画期的なリリースでは、MosaicML-30Bを発...

機械学習

「40歳以上の方におすすめのクールなAIツール(2023年12月版)」

DeepSwap DeepSwapは、説得力のあるディープフェイクの動画や画像を作成したい人向けのAIベースのツールです。動画、写真、ミ...