ロンドン大学の研究者がDSP-SLAMを紹介:深い形状の事前情報を持つオブジェクト指向SLAM

ロンドン大学の研究者によるDSP-SLAMの紹介:オブジェクト指向SLAMにおける深い形状の事前情報

人工知能(AI)の急速な進展の中で、ディープラーニングはますます人気が高まり、生活をより便利にしています。AIの中で、同時位置推定と地図作成(SLAM)は、ロボット、無人運転車、拡張現実システムなど、あらゆる産業に進出しています。

SLAMは、周囲の環境を再構築し、動くカメラの軌跡を同時に推定するものです。SLAMには、カメラの軌跡を正確に推定し、優れた幾何学的な再構築を行う素晴らしいアルゴリズムがあります。しかし、幾何学的な表現だけでは、より高度なシーン理解を必要とする複雑なタスクにおいて重要な意味情報を提供することはできません。

現在使用されているセマンティックSLAMシステムでは、シーン内のオブジェクトの数、サイズ、形状、相対位置などの具体的な詳細を推論することは難しいです。最近の研究では、ロンドン大学カレッジのコンピュータ科学部の研究チームが、最新のオブジェクト指向SLAMシステムであるDSP-SLAMを紹介しました。

DSP-SLAMは、包括的かつ正確な共同マップを構築するように設計されており、前景オブジェクトは密な3Dモデルで表現され、背景は疎なランドマーク点で表現されます。このシステムは、モノカメラ、ステレオ、またはステレオ+LiDARの入力モダリティでも十分に機能します。

研究チームは、DSP-SLAMの主な機能は、特徴ベースのSLAMシステムによって生成された3Dポイントクラウドを入力として受け取り、特定のオブジェクトを密な再構築する能力を追加することです。オブジェクトの検出にはセマンティックインスタンスセグメンテーションが使用され、カテゴリ固有の深層形状埋め込みがこれらのオブジェクトの形状と位置を推定するための先行情報として使用されています。

研究チームは、DSP対応バンドル調整がシステムの主要な特徴であり、カメラの位置、オブジェクトの位置、特徴点の共同最適化のためのポーズグラフを作成することを強調しています。この戦略を使用することで、シーンの表現方法を改善し最適化し、背景のランドマークと前景のオブジェクトの両方を考慮に入れることができます。

モノカメラ、ステレオ、およびステレオ+LiDARの複数の入力モダリティで秒間10フレームの速度で動作する提案されたシステムは、印象的なパフォーマンスを発揮しました。DSP-SLAMは、KITTIオドメトリデータセットからのステレオ+LiDARシーケンスやFreiburg、Redwood-OSデータセットからのモノカメラRGBシーケンスなど、複数のデータセットでテストされ、その能力が確認されています。不完全な観測にもかかわらず、システムは優れた完全物体再構築と一貫したグローバルマップを保持する能力を示しました。

研究者たちは、主な貢献を以下のように要約しています。

  1. DSP-SLAMは、前景オブジェクトのみを表現する以前の手法とは対照的に、疎な特徴点を使用して背景を再構築することで、オブジェクトに対するセマンティックマッピングの豊かさと特徴ベースのカメラトラッキングの正確さを組み合わせています。
  1. DSP-SLAMは、RGBのみのモノカメラストリームを使用するため、ノード-SLAMではなく、RGBのみのモノカメラストリームを使用しているため、デンスな深度画像に依存する手法よりも優れたパフォーマンスを発揮し、50個の3Dポイントでオブジェクトの形状を正確に推定することができます。
  1. DSP-SLAMは、オブジェクトの形状と位置推定において、事前にベースとなる技術である自動ラベリングを数量的および質的に凌駕しています。
  1. KITTIオドメトリデータセットの実験結果は、DSP-SLAMの共同バンドル調整がトラジェクトリー推定においてORB-SLAM2を凌駕し、特にステレオ+LiDAR入力を使用した場合に優れていることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

デプロイ可能な機械学習パイプラインの構築

多くのデータサイエンティストは、最初のコーディング体験をノートブックスタイルのユーザーインターフェースを通じて行いま...

機械学習

3Dで「ウォーリーを探せ」をプレイする:OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです

画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオ...

AI研究

「非営利研究者による人工知能(AI)の進展リスト」

去年遅くから今年にかけて、2023年はAIの人々がAIアプリケーションを作成するのに最適な時期であり、これは非営利の研究者に...

AI研究

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどう...

機械学習

製造品の品質におけるコンピュータビジョンの欠陥検出を、Amazon SageMaker Canvasを使用したノーコード機械学習で民主化する

品質の低下によるコストは、製造業者にとっての最重要課題です品質の欠陥は、廃棄物や再作業のコストを増加させ、スループッ...

コンピュータサイエンス

(Note Since HTML is a markup language, it doesn't have a direct translation. The provided text is a translation of the content.)

140以上のブランドが低品質なコンテンツファームサイトに広告を出しており、この問題は急速に拡大しています