このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる

『AI研究によって実現、写真-SLAM:ポータブルデバイスでのリアルタイム写真写実的マッピングの革新』

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成(SLAM)は、自律システムが自ら環境をナビゲートし理解することを目指す重要なトピックです。幾何学的マッピングは、従来のSLAMシステムの主な焦点であり、正確ながらも美的に基本的な環境表現を生成します。しかし、最近のニューラルレンダリングの進展により、SLAMプロセスに写真のようなリアルなイメージ再構成を取り入れることが可能であり、これによってロボットシステムの知覚能力が向上する可能性があります。

既存の手法は、暗黙的な表現に大きく依存しており、計算リソースに制約のあるデバイス上での展開には不向きですが、ニューラルレンダリングとSLAMの統合は有望な結果を生み出しています。たとえば、ESLAMはマルチスケールのコンパクトテンソルコンポーネントを使用し、Nice-SLAMは環境を反映した学習可能な特徴を持つ階層型グリッドを使用しています。その後、多数のレイサンプルの再構築損失を減らすことで、カメラ位置を推定し特徴を最大化するために協力します。最適化のプロセスは時間がかかるため、効果的な収束を保証するためにRGB-Dカメラや密な光流推定器、または単眼深度推定器など複数のソースから関連する深度情報を統合する必要があります。さらに、マルチレイヤーパーセプトロン(MLP)が暗黙的な特徴をデコードするため、最良の結果を得るためにレイサンプリングを正確に規格化するための境界領域を指定することが通常必要です。これにより、システムのスケーリングの可能性が制限されます。これらの制約から、SLAMリアルタイム探索と未知の領域でのマッピング能力を携帯プラットフォームを使用して達成することはできません。

本研究では、香港科技大学と中山大学の研究チームがPhoto-SLAMを提案しています。この画期的なフレームワークは、オンラインでフォトリアルなマッピングと正確な位置推定を実行し、従来の手法のスケーラビリティとコンピューティングリソースの制約を解決します。研究チームは、回転、スケーリング、密度、球面調和(SH)係数、およびORB特性を保持するポイントクラウドのハイパープリミティブマップを追跡します。ハイパープリミティブマップは、元の画像とレンダリングされた画像の間の損失を逆伝播することにより、対応するマッピングを学習し、因子グラフソルバを使用してトラッキングを最適化することを可能にします。3Dガウススプラッティングを使用して画像を生成します。3Dガウススプラッティングレンダラを導入することで、ビュー再構築のコストを下げることができますが、特に単眼の状況ではオンラインの増分マッピングの高品位なレンダリングを提供することはできません。さらに、ジオメトリベースの密度化技術とガウシアンピラミッド(GP)に基づいた学習手法を示唆し、密な深度情報に依存せずに高品質なマッピングを実現する方法を提案しています。

図1: Photo-SLAMは、同時位置推定とフォトリアルなマッピングのためにRGB-D、ステレオ、および単眼カメラをサポートする革命的なリアルタイムフレームワークです。1秒あたり最大1000フレームのレンダリング速度で高品質なシーンビューを再構築できます。

重要なことは、GP学習により、マルチレベルの特徴を段階的に獲得することが容易になり、システムのマッピング性能が大幅に向上します。研究チームは、RGB-Dカメラ、ステレオカメラ、単眼カメラによって撮影されたさまざまなデータセットを使用して、提案手法の効果を評価するための長期的な試行を行いました。この実験の結果は、Photo-SLAMがレンダリング速度、フォトリアリスティックなマッピング品質、および位置推定の効率において最先端の性能を達成していることを明確に示しています。さらに、Photo-SLAMシステムの組み込みデバイスでのリアルタイム動作は、有用なロボットアプリケーションの可能性を示しています。図1と図2は、Photo-SLAMの概要を示しています。

図2: Photo-SLAMの4つの主要コンポーネントは、ハイパープリミティブな要素を持つマップを維持し、位置推定、明示的なジオメトリマッピング、暗黙的なフォトリアルマッピング、およびループクロージャコンポーネントから構成されています。

この仕事の主な成果は以下の通りです:

• 研究チームは、ハイパープリミティブマップと同時ローカライゼーションに基づいた初の写真のようなマッピングシステムを開発しました。この新しいフレームワークは、屋内および屋外の単眼、ステレオ、RGB-Dカメラと一緒に動作します。

• 研究チームは、ガウシアンピラミッド学習の使用を提案しました。これにより、モデルは効果的かつ迅速に多レベルの特徴を学習でき、高精度なマッピングが可能になります。このシステムは、埋め込みシステムでもリアルタイム速度で動作し、完全なC++およびCUDAの実装により最先端のパフォーマンスを実現しています。コードへの一般公開も行われます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheを紹介します

人工知能(AI)とディープラーニングの進歩により、人間とコンピューターの相互作用は大きく変革されました。拡散モデルの導...

機械学習

「Meditronを紹介:LLaMA-2に基づいたオープンソースの医学用大規模言語モデル(LLM)のスイート」

大規模言語モデル(LLMs)の最もエキサイティングな応用の1つは、医学分野であり、その使用例には医学研究、カスタマイズされ...

人工知能

レイザーのエッジに VFXスターであるサーフェスドスタジオが、今週『NVIDIA Studio』で驚くべきSFの世界を作り出しました

ビジュアルエフェクトアーティストのサーフィスドスタジオが、最新のVFXプロジェクトを披露するためにNVIDIA Studioに戻って...

AI研究

ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました

社会心理学辞典によれば、社会的規範は特定の社会的文脈内で典型的かつ適切な行動を示す社会的に決定された基準です。これら...

機械学習

「Co-BioNetに会ってください:モナッシュ大学の敵対的AIシステムが医療画像解析を革新し、広範な人間の注釈なしで精度を向上させています」

ディープラーニングは医療人工知能を大幅に進化させました。しかし、特に画像セグメンテーションのタスクにおいて、訓練に多...

AI研究

「人間の活動認識におけるディープラーニング:このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」

ヒューマンアクティビティ認識(HAR)は、さまざまなセンサから収集したデータに基づいて、自動的に人間の活動を識別および分...