Sealとは、大規模な3Dポイントクラウドに対して自己教示学習のための2Dビジョンファウンデーションモデルを活用し、「任意のポイントクラウドシーケンスをセグメント化する」AIフレームワークです

Seal is an AI framework that uses a 2D vision foundation model for self-supervised learning on large 3D point clouds to segment any point cloud sequence.

大規模言語モデル(LLMs)は、人工知能コミュニティで大きな話題となっています。 最近の影響力と驚異的なパフォーマンスは、ヘルスケア、ファイナンス、エンターテインメントなど、広範な産業に貢献しています。 GPT-3.5、GPT 4、DALLE 2、BERTなどのよく知られたLLMs、または基礎モデルは、短い自然言語プロンプトだけで独自のコンテンツを生成することにより、非常に優れたタスクを実行し、私たちの生活を簡素化しています。

SAM、X-Decoder、SEEMなどの最近のビジョン基礎モデル(VFMs)は、コンピュータビジョンの多くの進歩を遂げています。 VFMsは2D認識タスクで大きな進展を遂げていますが、3D VFM研究はまだ改善が必要です。 現在の2D VFMsを3D認識タスクに拡張することが必要であると研究者は提言しています。 重要な3D認識タスクの1つは、自動車用LiDARセンサによってキャプチャされたポイントクラウドのセグメンテーションであり、自動運転車の安全な運行に必要です。

既存のポイントクラウドセグメンテーション技術は、主にトレーニングのために注釈付けされた大規模なデータセットに依存しています。 ただし、ポイントクラウドのラベリングは時間がかかり、困難です。 すべての課題を克服するために、研究者チームは、自己教師あり表現学習をサポートするためにVFMsから意味的に豊かな知識を収集するSealというフレームワークを紹介しました。 クロスモーダル表現学習に着想を得て、Sealは、LiDARとカメラセンサの2D-3D関係を使用してクロスモーダル表現学習に高品質の対比的サンプルを開発することにより、自動車用ポイントクラウドでセルフサポート表現学習を実現します。

Sealには、拡張性、一貫性、汎用性の3つの重要な特性があります。

  1. 拡張性 – Sealは、VFMsを単にポイントクラウドに変換することで使用し、事前トレーニングの段階で2Dまたは3Dの注釈が必要なくなります。そのため、人間の注釈が必要な時間を削減するだけでなく、大量のデータを処理できます。
  1. 一貫性:アーキテクチャは、カメラからLiDARへのスペーシャルおよびテンポラルリンク、およびポイントからセグメントステージの両方でスペーシャルおよびテンポラルリンクを強制します。 Sealは、クロスモーダル相互作用をキャプチャすることにより、ビジョン、すなわちカメラとLiDARセンサのクロスモーダル相互作用を捕捉して、両モダリティから適切で一貫したデータを含む学習された表現を確実にします。
  1. 汎用性:Sealは、さまざまなポイントクラウドデータセットを含む下流アプリケーションに対する知識移転を可能にします。 それは、さまざまな解像度、サイズ、クリーン度、汚染レベル、実際のデータ、および人工データを持つデータセットを扱います。

研究チームが挙げた主な貢献のいくつかは次のとおりです。

  1. 提案されたSealフレームワークは、意味的なスペーシャルおよびテンポラル一貫性を捕捉するために作成されたスケーラブルで信頼性の高い汎用フレームワークです。
  1. 自動車用ポイントクラウドシーケンスから有用なフィーチャを抽出することができます。
  1. 著者は、この研究が、3Dポイントクラウドの大規模な自己教師あり表現学習に2Dビジョン基礎モデルを初めて使用したものであると述べています。
  1. 11種類の異なるポイントクラウドデータセット全てで、Sealは線形探査とファインチューニングの両方で以前の方法よりも優れた性能を発揮しました。

チームは、評価のために11種類の異なるポイントクラウドデータセットでテストを行い、Sealのパフォーマンスを評価しました。 結果は、既存の手法に比べてSealの優位性を示しています。 nuScenesデータセットでは、Sealは線形探査後に驚異的な平均IoU(Intersection over Union)45.0%を達成しました。 このパフォーマンスは、ランダム初期化よりも36.9%のIoUで、以前のSOTA手法を6.1%のIoUで上回りました。 Sealは、全11種類のテストされたポイントクラウドデータセット全体で、20種類の異なるフューショットファインチューニングタスクで著しい性能向上を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディ...

人工知能

「キャリアを将来に備えるための最高の無料AIコース」

今日から受講できる最高の無料AIコースのうち、8つをご紹介します

AI研究

スタンフォード大学の研究者が「局所的に条件付けられた拡散(Locally Conditioned Diffusion):拡散モデルを使用した構成的なテキストから画像への生成手法」を紹介しました

3Dシーンモデリングは従来、特定の知識を持つ人々に限られた時間のかかる手続きでした。パブリックドメインには多くの3D素材...

機械学習

このAI論文は、周波数領域での差分プライバシーを利用したプライバシー保護顔認識手法を提案しています

ディープラーニングは、畳み込みニューラルネットワークに基づいた顔認識モデルを大幅に進化させました。これらのモデルは高...

データサイエンス

モデルオプスとは何ですか?

モデルオプスは、使用中のモデルを管理および実行するための手順と機器の集合ですMLチームはDevOpsチームと協力し、各モデル...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...