「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」

「Appleの研究者が画期的な人工知能アプローチで、動的なポーズのRGB画像から密集3D再構築を実現」

学習済みの先行知識を活用することで、モノクルカメラによるRGBのみの再構成は、低テクスチャ領域の課題や画像ベースの再構成の曖昧さに向けて大きな進歩を遂げました。リアルタイム実行のための実用的なソリューションが注目されています。これらのソリューションは、モバイルデバイス上のインタラクティブなアプリケーションにとって不可欠です。しかし、現在の最先端の再構成システムには、成功したアプローチがオンラインかつリアルタイムの両方であるという重要な前提条件が考慮されていません。

オンラインで動作するためには、アルゴリズムが画像キャプチャ中に正確な増分再構成を生成し、すべての時間間隔で過去と現在の観測にのみ依存する必要があります。この問題は、各ビューが正確な、完全に最適化された姿勢推定を持っているという以前の取り組みの重要な前提を破ります。その代わりに、同時位置推定およびマッピング(SLAM)システムでは、リアルワールドのスキャン条件の下で姿勢のドリフトが発生し、動的な姿勢推定のストリームが生じます。既存の姿勢は、姿勢グラフ最適化およびループクロージャによって更新されます。このようなSLAMからの姿勢の更新は、オンラインスキャンで一般的です。

図1に示すように、再構成はこれらの変更を尊重することによって、SLAMシステムとの一致を維持する必要があります。ただし、最近のRGBのみの密な再構成には、オンラインアプリケーションでのカメラの姿勢推定の動的な性質にはまだ対応していません。再構成の品質における重要な進展にもかかわらず、これらの取り組みは動的な姿勢を明示的に扱っておらず、静的な姿勢の入力画像の従来の問題の定式化を維持しています。一方で、これらの更新が存在し、現在のRGBのみの手法に姿勢の更新管理を統合する方法を提供しています。

図1:SLAMシステム(a、b)からの姿勢データは、ライブ3D再構成では更新(c、赤緑)される場合があります。私たちの姿勢更新管理手法は、グローバルに一貫性のある正確な再構成を生成しますが、これらの変更を無視すると不正確なジオメトリが生じます。

彼らは、シーンに新しい視点を統合するための線形の更新アルゴリズムを使用するRGB-Dの技術であるBundleFusionに影響を受けています。これにより、古いビューの非統合と、更新された位置の利用可能性に応じた再統合が可能となります。本研究では、汎用的なフレームワークとしての非線形の学習ベースの非統合技術を提供し、RGB画像からの動的な再構築における姿勢変更の管理をサポートします。静的な姿勢の仮定を持つ3つのサンプルのRGBのみの再構築技術が研究されています。オンラインシナリオにおける各アプローチの制約を克服するために。

具体的には、Appleとカリフォルニア大学サンタバーバラ校の研究者は、学習ベースの非線形の更新ルールに依存するNeuralReconなどの技術のために、動的な再構築を容易にする深層学習ベースの非線形の非統合技術を提供します。彼らは、LivePoseと呼ばれる新しいかつユニークなデータセットを提供し、BundleFusionを使用して構築されたScanNetの完全な動的な姿勢シーケンスを含んでおり、この技術を検証し、将来の研究を支援します。非統合戦略の効果は、重要な再構成指標における質的および量的な改善を明らかにするテストで示されています。

彼らの主な貢献は以下の通りです:• モバイルインタラクティブアプリケーションのための現実の環境により忠実に模倣した新しいビジョンの仕事を提供し、動的な姿勢のRGB画像からの密なオンライン3D再構成を実現します。• 彼らは公開可能な初の動的SLAM姿勢推定データセットであるLivePoseをリリースしました。これにはScanNetデータセットの1,613スキャンごとに完全なSLAMポーズストリームが含まれます。• 動的な姿勢での再構築を容易にするために、革新的なトレーニングと評価方法を作成しました。• 学習済みの再発ビュー統合を持つ技術に対して動的な位置処理を可能にする、独自の再発性非統合モジュールを提案しています。このモジュールは、姿勢変更の管理方法を教えます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

研究者たちは、ビデオ記録を使用して、鳥の姿勢を3Dで追跡するための新しいマーカーレスAIメソッドを開発しました

動物や鳥の行動、視線、微小な動きを追跡することは、研究者にとって困難な課題であり、正確な3Dアノテーションと複数の角度...

データサイエンス

Amazon SageMaker 上で MPT-7B を微調整する

毎週新しい大規模言語モデル(LLM)が発表され、それぞれが前任者を打ち負かして評価のトップを狙っています最新のモデルの1...

AIニュース

「アマゾンが「Q」という業務に合わせてカスタマイズできる生成AIチャットボットを発表」

Amazon Web Services(AWS)は最近、職場を変革するために設計された画期的な生成型AIパワードアシスタント「Amazon Q」を発...

データサイエンス

Amazon SageMakerを使用してモデルの精度を向上させるために、ファンデーションモデルを使用します

「住宅の価値を決定することは機械学習(ML)の典型的な例ですこの投稿では、ビジュアル質問応答(VQA)のために特に設計され...

AI研究

南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのある...