このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる

『AI研究によって実現、写真-SLAM:ポータブルデバイスでのリアルタイム写真写実的マッピングの革新』

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成(SLAM)は、自律システムが自ら環境をナビゲートし理解することを目指す重要なトピックです。幾何学的マッピングは、従来のSLAMシステムの主な焦点であり、正確ながらも美的に基本的な環境表現を生成します。しかし、最近のニューラルレンダリングの進展により、SLAMプロセスに写真のようなリアルなイメージ再構成を取り入れることが可能であり、これによってロボットシステムの知覚能力が向上する可能性があります。

既存の手法は、暗黙的な表現に大きく依存しており、計算リソースに制約のあるデバイス上での展開には不向きですが、ニューラルレンダリングとSLAMの統合は有望な結果を生み出しています。たとえば、ESLAMはマルチスケールのコンパクトテンソルコンポーネントを使用し、Nice-SLAMは環境を反映した学習可能な特徴を持つ階層型グリッドを使用しています。その後、多数のレイサンプルの再構築損失を減らすことで、カメラ位置を推定し特徴を最大化するために協力します。最適化のプロセスは時間がかかるため、効果的な収束を保証するためにRGB-Dカメラや密な光流推定器、または単眼深度推定器など複数のソースから関連する深度情報を統合する必要があります。さらに、マルチレイヤーパーセプトロン(MLP)が暗黙的な特徴をデコードするため、最良の結果を得るためにレイサンプリングを正確に規格化するための境界領域を指定することが通常必要です。これにより、システムのスケーリングの可能性が制限されます。これらの制約から、SLAMリアルタイム探索と未知の領域でのマッピング能力を携帯プラットフォームを使用して達成することはできません。

本研究では、香港科技大学と中山大学の研究チームがPhoto-SLAMを提案しています。この画期的なフレームワークは、オンラインでフォトリアルなマッピングと正確な位置推定を実行し、従来の手法のスケーラビリティとコンピューティングリソースの制約を解決します。研究チームは、回転、スケーリング、密度、球面調和(SH)係数、およびORB特性を保持するポイントクラウドのハイパープリミティブマップを追跡します。ハイパープリミティブマップは、元の画像とレンダリングされた画像の間の損失を逆伝播することにより、対応するマッピングを学習し、因子グラフソルバを使用してトラッキングを最適化することを可能にします。3Dガウススプラッティングを使用して画像を生成します。3Dガウススプラッティングレンダラを導入することで、ビュー再構築のコストを下げることができますが、特に単眼の状況ではオンラインの増分マッピングの高品位なレンダリングを提供することはできません。さらに、ジオメトリベースの密度化技術とガウシアンピラミッド(GP)に基づいた学習手法を示唆し、密な深度情報に依存せずに高品質なマッピングを実現する方法を提案しています。

図1: Photo-SLAMは、同時位置推定とフォトリアルなマッピングのためにRGB-D、ステレオ、および単眼カメラをサポートする革命的なリアルタイムフレームワークです。1秒あたり最大1000フレームのレンダリング速度で高品質なシーンビューを再構築できます。

重要なことは、GP学習により、マルチレベルの特徴を段階的に獲得することが容易になり、システムのマッピング性能が大幅に向上します。研究チームは、RGB-Dカメラ、ステレオカメラ、単眼カメラによって撮影されたさまざまなデータセットを使用して、提案手法の効果を評価するための長期的な試行を行いました。この実験の結果は、Photo-SLAMがレンダリング速度、フォトリアリスティックなマッピング品質、および位置推定の効率において最先端の性能を達成していることを明確に示しています。さらに、Photo-SLAMシステムの組み込みデバイスでのリアルタイム動作は、有用なロボットアプリケーションの可能性を示しています。図1と図2は、Photo-SLAMの概要を示しています。

図2: Photo-SLAMの4つの主要コンポーネントは、ハイパープリミティブな要素を持つマップを維持し、位置推定、明示的なジオメトリマッピング、暗黙的なフォトリアルマッピング、およびループクロージャコンポーネントから構成されています。

この仕事の主な成果は以下の通りです:

• 研究チームは、ハイパープリミティブマップと同時ローカライゼーションに基づいた初の写真のようなマッピングシステムを開発しました。この新しいフレームワークは、屋内および屋外の単眼、ステレオ、RGB-Dカメラと一緒に動作します。

• 研究チームは、ガウシアンピラミッド学習の使用を提案しました。これにより、モデルは効果的かつ迅速に多レベルの特徴を学習でき、高精度なマッピングが可能になります。このシステムは、埋め込みシステムでもリアルタイム速度で動作し、完全なC++およびCUDAの実装により最先端のパフォーマンスを実現しています。コードへの一般公開も行われます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「ドバイ、ロボタクシーの試験を開始する予定」

「アラブ首長国連邦の都市ドバイは、混雑や事故を減らすため、今月初めてのロボットタクシーの導入を開始します」

機械学習

Learning to build—Towards AI コミュニティニュースレター第1号

私たちは最新のニュースレターをお知らせすることをとても楽しみにしています!それは私たちの共同体についてのすべてですコ...

AIニュース

「学生向けの最高のAIツール(2023年9月)」

人工知能(AI)は、教育においてさまざまな応用があります。インタラクティブなバーチャル教室の開発、”スマートコンテ...

機械学習

「シームレスM4Tに出会ってください:Meta AIの新しいスピーチ翻訳の基盤モデル」

「音声は急速に基盤モデルの次のフロンティアの一つとなっています言語やコンピュータビジョンなどの領域がまだ主流ですが、...

機械学習

「非常にシンプルな数学が大規模言語モデル(LLMs)の強化学習と高次関数(RLHF)に情報を提供できるのか? このAIの論文はイエスと言っています!」

人間の入力を取り入れることは、ChatGPTやGPT-4などの大規模言語モデル(LLM)の能力の近年の印象的な向上の鍵要素です。人間...

データサイエンス

リニア代数3:ベクトル方程式

私の機械学習の基礎に関するシリーズの3回目のエッセーへようこそ前回の記事では、階段行列形式を説明しました...