このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる

『AI研究によって実現、写真-SLAM:ポータブルデバイスでのリアルタイム写真写実的マッピングの革新』

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成(SLAM)は、自律システムが自ら環境をナビゲートし理解することを目指す重要なトピックです。幾何学的マッピングは、従来のSLAMシステムの主な焦点であり、正確ながらも美的に基本的な環境表現を生成します。しかし、最近のニューラルレンダリングの進展により、SLAMプロセスに写真のようなリアルなイメージ再構成を取り入れることが可能であり、これによってロボットシステムの知覚能力が向上する可能性があります。

既存の手法は、暗黙的な表現に大きく依存しており、計算リソースに制約のあるデバイス上での展開には不向きですが、ニューラルレンダリングとSLAMの統合は有望な結果を生み出しています。たとえば、ESLAMはマルチスケールのコンパクトテンソルコンポーネントを使用し、Nice-SLAMは環境を反映した学習可能な特徴を持つ階層型グリッドを使用しています。その後、多数のレイサンプルの再構築損失を減らすことで、カメラ位置を推定し特徴を最大化するために協力します。最適化のプロセスは時間がかかるため、効果的な収束を保証するためにRGB-Dカメラや密な光流推定器、または単眼深度推定器など複数のソースから関連する深度情報を統合する必要があります。さらに、マルチレイヤーパーセプトロン(MLP)が暗黙的な特徴をデコードするため、最良の結果を得るためにレイサンプリングを正確に規格化するための境界領域を指定することが通常必要です。これにより、システムのスケーリングの可能性が制限されます。これらの制約から、SLAMリアルタイム探索と未知の領域でのマッピング能力を携帯プラットフォームを使用して達成することはできません。

本研究では、香港科技大学と中山大学の研究チームがPhoto-SLAMを提案しています。この画期的なフレームワークは、オンラインでフォトリアルなマッピングと正確な位置推定を実行し、従来の手法のスケーラビリティとコンピューティングリソースの制約を解決します。研究チームは、回転、スケーリング、密度、球面調和(SH)係数、およびORB特性を保持するポイントクラウドのハイパープリミティブマップを追跡します。ハイパープリミティブマップは、元の画像とレンダリングされた画像の間の損失を逆伝播することにより、対応するマッピングを学習し、因子グラフソルバを使用してトラッキングを最適化することを可能にします。3Dガウススプラッティングを使用して画像を生成します。3Dガウススプラッティングレンダラを導入することで、ビュー再構築のコストを下げることができますが、特に単眼の状況ではオンラインの増分マッピングの高品位なレンダリングを提供することはできません。さらに、ジオメトリベースの密度化技術とガウシアンピラミッド(GP)に基づいた学習手法を示唆し、密な深度情報に依存せずに高品質なマッピングを実現する方法を提案しています。

図1: Photo-SLAMは、同時位置推定とフォトリアルなマッピングのためにRGB-D、ステレオ、および単眼カメラをサポートする革命的なリアルタイムフレームワークです。1秒あたり最大1000フレームのレンダリング速度で高品質なシーンビューを再構築できます。

重要なことは、GP学習により、マルチレベルの特徴を段階的に獲得することが容易になり、システムのマッピング性能が大幅に向上します。研究チームは、RGB-Dカメラ、ステレオカメラ、単眼カメラによって撮影されたさまざまなデータセットを使用して、提案手法の効果を評価するための長期的な試行を行いました。この実験の結果は、Photo-SLAMがレンダリング速度、フォトリアリスティックなマッピング品質、および位置推定の効率において最先端の性能を達成していることを明確に示しています。さらに、Photo-SLAMシステムの組み込みデバイスでのリアルタイム動作は、有用なロボットアプリケーションの可能性を示しています。図1と図2は、Photo-SLAMの概要を示しています。

図2: Photo-SLAMの4つの主要コンポーネントは、ハイパープリミティブな要素を持つマップを維持し、位置推定、明示的なジオメトリマッピング、暗黙的なフォトリアルマッピング、およびループクロージャコンポーネントから構成されています。

この仕事の主な成果は以下の通りです:

• 研究チームは、ハイパープリミティブマップと同時ローカライゼーションに基づいた初の写真のようなマッピングシステムを開発しました。この新しいフレームワークは、屋内および屋外の単眼、ステレオ、RGB-Dカメラと一緒に動作します。

• 研究チームは、ガウシアンピラミッド学習の使用を提案しました。これにより、モデルは効果的かつ迅速に多レベルの特徴を学習でき、高精度なマッピングが可能になります。このシステムは、埋め込みシステムでもリアルタイム速度で動作し、完全なC++およびCUDAの実装により最先端のパフォーマンスを実現しています。コードへの一般公開も行われます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『NVIDIAのCEO、ジェンソン・ファング氏がテルアビブで開催されるAIサミットの主演を務めます』

NVIDIAの創設者兼CEOであるJensen Huang氏は、10月15日から16日までテルアビブで開催されるNVIDIA AIサミットで、生成型AIと...

機械学習

「ハイパーパラメータのチューニングに関する包括的なガイド:高度な手法の探索」

機械学習において、ハイパーパラメータの調整はモデルの性能を向上させるために不可欠ですさまざまな高度な調整手法について...

AI研究

ペンシルバニア大学の研究者たちは、OpenAIのChatGPT-Visionに対して、一連のテストを実施することで、ビジョンベースのAI機能の有効性を評価するための機械学習フレームワークを開発しました

GPT-Visionモデルは、多くの人の注目を集めています。人々は、テキストや画像に関連するコンテンツを理解し生成する能力に興...

AIテクノロジー

「注目メカニズムの解読:トランスフォーマーモデルにおける最大幅解法に向けて」

アテンションメカニズムは、自然言語処理と大規模な言語モデルにおいて重要な役割を果たしてきました。アテンションメカニズ...

AIニュース

「AIが数秒でゼロから新しいロボットをデザイン」

ノースウェスタン大学の科学者のリーダーである研究チームが、ほぼ即座にゼロからロボットを設計することができる人工知能を...