中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました

『中国の研究者がSJTUで大規模LiDARオドメトリに適したウィンドウベースのポイントトランスフォーマーフレームワーク「TransLO」を紹介』

上海交通大学と中国矿业大学の研究者たちはTransLOを開発しました。このLiDARオドメトリネットワークは、セルフアテンションとマスクされたクロスフレームアテンションを備えたウィンドウベースのマスクされたポイントトランスフォーマーを統合しています。TransLOは、スパースな点群を効果的に扱うため、無効な動的な点を除外するためにバイナリマスクを使用しています。

この手法では、Iterative Closest Point(ICP)のバリアントや広く使用されているLOAMなど、一般的なLiDARオドメトリの手法について説明しています。また、パフォーマンスの向上のために地面のセグメンテーションを組み込んだLOAMのバリアントに重点を置いています。この研究では、CNNとトランスフォーマーを組み合わせた世界的な特徴埋め込みを実現するため、最初のトランスフォーマーベースのLiDARオドメトリネットワークであるTransLOが紹介されています。射影感知型マスク、ウィンドウベースのマスクされたセルフアテンション(WMSA)、マスクされたクロスフレームアテンション(MCFA)などのコンポーネントは、TransLOの効果を示すアブレーション研究を通じて評価されています。

LiDARオドメトリは、SLAM、ロボットナビゲーション、自動運転などのアプリケーションにおいて重要ですが、従来はICPや特徴ベースの手法に依存していました。CNNなどの学習ベースの手法は、ポイントクラウドにおける長距離の依存関係やグローバル特徴のキャプチャに課題があります。TransLOは、ウィンドウベースのマスクされたポイントトランスフォーマーを使用して、効率的にポイントクラウドを処理し、姿勢推定を予測します。

TransLOは、2D射影、長距離の依存関係をキャプチャするローカルトランスフォーマー、および姿勢推定を予測するMCFAを使用してポイントクラウドを処理します。ストライドベースのサンプリング層とWMSAを使用してポイントクラウドを円柱状の表面に射影します。CNNは受容野を拡大し、射影感知型マスクはポイントクラウドのスパースさに対処します。姿勢ワーピング操作により反復的な改善が行われます。アブレーション研究は、コンポーネントの効果を確認し、TransLOがKITTIオドメトリデータセットで既存の手法を上回ることを示しています。

KITTIオドメトリデータセット上の実験結果は、平均回転RMSEが0.500°/100m、平行移動RMSEが0.993%というTransLOの優れたパフォーマンスを示しています。TransLOは最近の学習ベースの手法を上回り、ほとんどの評価シーケンスでLOAMをも凌駕します。アブレーション研究では、外れ値をフィルタリングするバイナリマスク、フレーム間のソフトな対応関係の確立により、MCFAモジュールが翻訳と回転エラーの改善に貢献していることが強調されています。

提案されたTransLOネットワークは、LiDARオドメトリのためのエンドツーエンドのウィンドウベースのマスクされたポイントトランスフォーマーであり、CNNとトランスフォーマーを統合してグローバル特徴埋め込みと外れ値除去を強化し、KITTIオドメトリデータセット上で最新のパフォーマンスを達成します。主要なコンポーネントには、長距離の依存関係のためのWMSA、外れ値フィルタリングのためのバイナリマスク、フレームの関連付けと姿勢推定におけるMCFAが含まれています。アブレーション研究は、WMSAの重要性、外れ値フィルタリングのためのバイナリマスク、MCFAのモデルの成功における重要な役割を確認しています。TransLOは、大規模な位置特定とナビゲーションにおいて優れた精度、効率、グローバル特徴に焦点を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ゲーム業界の皆様へ!もう奇妙な鏡は不要です、Mirror-NeRFが登場しました!

NeRF(ニューラル・ラディアンス・フィールド)は、RNNとCNNの組み合わせを使用して、形状、材質、テクスチャなどの物体の物...

コンピュータサイエンス

A.I.-検出ツールを騙すのはどれくらい簡単ですか?

ディテクターはすべての文脈の手がかりを無視するため、写真に写るマスク氏と共にリアルなオートマトンの存在を考慮しません

機械学習

「Google AIの新しいパラダイムは、多段階の機械学習MLアルゴリズムの組成コストを削減して、強化されたユーティリティを実現する方法は何ですか」

今日のデータ駆動型の環境では、機械学習やデータ分析アルゴリズムの有用性を最大化しながらプライバシーを確保することが重...

機械学習

「ディープラーニングモデルのレイヤーを凍結する方法 - 正しいやり方」

「モデルの微調整を行いたい場合や、処理する例に応じて一部のパラメータを固定することは、しばしば有用です以下の例で示さ...

機械学習

Google AIはPixelLLMを提案します:細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

大規模言語モデル(LLMs)は、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなど、人工知能(AI)のサブ...

AIニュース

「言語モデルの逆スケーリングの謎を解明する」

This aspect of inverse scaling is a crucial point to keep in mind, as it can affect the performance of larger LLMs. H...