「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」

Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案 Apple researchers propose an end-to-end network that generates detailed 3D reconstruction from posed images.

GTA-5をプレイしたことはありますか？ゲーム内の3Dグラフィックには感動します。平面上の2Dグラフィックとは異なり、3Dグラフィックは奥行きと透視図をシミュレートし、よりリアルで没入感のある映像を実現します。これらのグラフィックは、ビデオゲーム、映画制作、建築ビジュアライゼーション、医療画像、仮想現実など、さまざまな分野で広く利用されています。

3Dモデルを作成する従来の方法は、入力画像の深度マップを推定し、それらを統合して3Dモデルを作成することでした。Appleとカリフォルニア大学サンタバーバラ校の研究者チームは、従来のテスト時最適化の方法を使用しないで、ディープニューラルネットワークを使用してシーンレベルの3Dジオメトリを直接推論する手法を開発しました。

従来の方法では、透明な部分や低テクスチャの表面が深度マップと一致しないため、ジオメトリが欠落したりアーティファクトが発生したりすることがありました。研究者のアプローチでは、画像をボクセルグリッドに投影し、3D畳み込みニューラルネットワークを使用してシーンの切り詰められた符号付き距離関数（TSDF）を直接予測します。

畳み込みニューラルネットワーク（CNN）は、主に画像や動画を処理・分析するために設計された特殊な人工ニューラルネットワークです。この技術を使用する利点は、CNNが学習し、低テクスチャや透明な領域のギャップを埋めることができる滑らかで一貫した表面を生成できることです。

研究者は、トレーニング中にモデルのボクセルグリッドに合わせて真のTSDFをサンプリングするために三次補間を使用しました。この三次補間サンプリングは、トレーニングセッションで詳細にランダムノイズを追加しました。これを克服するために、彼らは真のTSDFがよく知られている正確なポイントでのみ教師あり予測を考慮し、この方法により結果が10％改善されました。

ボクセルは、ボリュームピクセルの略称です。それは、2D画像のポイントを表すピクセルと同様に、グリッド内の3D空間のポイントを表します。既存のボクセルは4cm以上であり、自然画像で見られる幾何学的な詳細を解決するのに十分ではなく、ボクセルの解像度を高めるのは費用がかかります。彼らは、CNNグリッド機能を使用してこの問題を解決し、画像特徴をクエリポイントに直接投影しました。

各入力画像から各ボクセルへの特徴のサンプリングには、密なバックプロジェクションが必要でした。しかし、バックプロジェクションボリュームでぼやけが発生しました。これを解決するために、彼らは初期のマルチビューステレオ深度推定を使用し、特徴ボリュームを向上させました。

研究者は、彼らの手法がネットワークが詳細な情報を学習し、追加のトレーニングや3D畳み込みレベルを必要とせずに出力解像度を自由に選択できるようにする鍵であると主張しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」

Was this article helpful?

Visual BERTのマスタリー | 最初のエンカウンターのパワーを解き放て

「次のステップは責任あるAIですどのようにしてそこに辿り着くのか？」

AI研究

「単一細胞生物学のAIのフロンティアを探索する：GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

東京大学の研究者たちは、攻撃者から機密性の高い人工知能（AI）ベースのアプリケーションを保護するための新しい技術を紹介しました

「マスク言語モデリングタスクのBERTトレーニング方法」

「マイクロソフトの研究者たちはDeepSpeed-VisualChatを提案：スケーラブルなマルチモーダル言語モデルの訓練の大きな進歩」というタイトルで、記事の内容を日本語に翻訳すると、以下のようになります

Google DeepMindは、ChatGPTを超えるアルゴリズムの開発に取り組んでいます

データ変換ツールにおけるAIの展望