Sealとは、大規模な3Dポイントクラウドに対して自己教示学習のための2Dビジョンファウンデーションモデルを活用し、「任意のポイントクラウドシーケンスをセグメント化する」AIフレームワークです

Seal is an AI framework that uses a 2D vision foundation model for self-supervised learning on large 3D point clouds to segment any point cloud sequence.

大規模言語モデル(LLMs)は、人工知能コミュニティで大きな話題となっています。 最近の影響力と驚異的なパフォーマンスは、ヘルスケア、ファイナンス、エンターテインメントなど、広範な産業に貢献しています。 GPT-3.5、GPT 4、DALLE 2、BERTなどのよく知られたLLMs、または基礎モデルは、短い自然言語プロンプトだけで独自のコンテンツを生成することにより、非常に優れたタスクを実行し、私たちの生活を簡素化しています。

SAM、X-Decoder、SEEMなどの最近のビジョン基礎モデル(VFMs)は、コンピュータビジョンの多くの進歩を遂げています。 VFMsは2D認識タスクで大きな進展を遂げていますが、3D VFM研究はまだ改善が必要です。 現在の2D VFMsを3D認識タスクに拡張することが必要であると研究者は提言しています。 重要な3D認識タスクの1つは、自動車用LiDARセンサによってキャプチャされたポイントクラウドのセグメンテーションであり、自動運転車の安全な運行に必要です。

既存のポイントクラウドセグメンテーション技術は、主にトレーニングのために注釈付けされた大規模なデータセットに依存しています。 ただし、ポイントクラウドのラベリングは時間がかかり、困難です。 すべての課題を克服するために、研究者チームは、自己教師あり表現学習をサポートするためにVFMsから意味的に豊かな知識を収集するSealというフレームワークを紹介しました。 クロスモーダル表現学習に着想を得て、Sealは、LiDARとカメラセンサの2D-3D関係を使用してクロスモーダル表現学習に高品質の対比的サンプルを開発することにより、自動車用ポイントクラウドでセルフサポート表現学習を実現します。

Sealには、拡張性、一貫性、汎用性の3つの重要な特性があります。

  1. 拡張性 – Sealは、VFMsを単にポイントクラウドに変換することで使用し、事前トレーニングの段階で2Dまたは3Dの注釈が必要なくなります。そのため、人間の注釈が必要な時間を削減するだけでなく、大量のデータを処理できます。
  1. 一貫性:アーキテクチャは、カメラからLiDARへのスペーシャルおよびテンポラルリンク、およびポイントからセグメントステージの両方でスペーシャルおよびテンポラルリンクを強制します。 Sealは、クロスモーダル相互作用をキャプチャすることにより、ビジョン、すなわちカメラとLiDARセンサのクロスモーダル相互作用を捕捉して、両モダリティから適切で一貫したデータを含む学習された表現を確実にします。
  1. 汎用性:Sealは、さまざまなポイントクラウドデータセットを含む下流アプリケーションに対する知識移転を可能にします。 それは、さまざまな解像度、サイズ、クリーン度、汚染レベル、実際のデータ、および人工データを持つデータセットを扱います。

研究チームが挙げた主な貢献のいくつかは次のとおりです。

  1. 提案されたSealフレームワークは、意味的なスペーシャルおよびテンポラル一貫性を捕捉するために作成されたスケーラブルで信頼性の高い汎用フレームワークです。
  1. 自動車用ポイントクラウドシーケンスから有用なフィーチャを抽出することができます。
  1. 著者は、この研究が、3Dポイントクラウドの大規模な自己教師あり表現学習に2Dビジョン基礎モデルを初めて使用したものであると述べています。
  1. 11種類の異なるポイントクラウドデータセット全てで、Sealは線形探査とファインチューニングの両方で以前の方法よりも優れた性能を発揮しました。

チームは、評価のために11種類の異なるポイントクラウドデータセットでテストを行い、Sealのパフォーマンスを評価しました。 結果は、既存の手法に比べてSealの優位性を示しています。 nuScenesデータセットでは、Sealは線形探査後に驚異的な平均IoU(Intersection over Union)45.0%を達成しました。 このパフォーマンスは、ランダム初期化よりも36.9%のIoUで、以前のSOTA手法を6.1%のIoUで上回りました。 Sealは、全11種類のテストされたポイントクラウドデータセット全体で、20種類の異なるフューショットファインチューニングタスクで著しい性能向上を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「UCLAの研究者たちは、広帯域の回折光学ニューラルネットワークに基づいて設計されたマルチスペクトルQPIシステムを紹介する」

量子位相イメージング(QPI)は、多くの科学および顕微鏡の分野での最先端のイメージング手法です。透明または半透明の材料を...

データサイエンス

「新時代のAI/MLのためのソフトウェア/ハードウェアアーキテクチャをどのように共同設計するか?」

最新の生成AI技術は、コンピュータビジョン、自然言語処理などで爆発的な成長を遂げ、画期的なモデルアーキテクチャの研究に...

AIニュース

著者たちはAI企業に対して団結し、著作権保護された作品に対する尊重と報酬を求めます

著名な作家、マーガレット・アトウッド、ヴィエット・タン・グエン、フィリップ・プルマンなどの文学の巨匠たちが、人工知能...

データサイエンス

なぜAIチップの将来がニューロモーフィックコンピューティングにおいて重要なのか?

神経形態計算はAIとIoTを変革する可能性がありますより正確で多様性に富み、信頼性の高いアクセスしやすいAIの波を引き起こす...

機械学習

プロンプトエンジニアリングへの紹介

イントロダクション 自然言語処理は、基盤となる技術や手法を使用した実装の豊かな領域であります。近年、特に2022年の始まり...

AIニュース

スタビリティAIのスタブルディフュージョンXL 1.0:AI画像生成の画期的なブレークスルー

先進的なAIスタートアップであるStability AIは、Stable Diffusion XL 1.0のローンチにより、再び生成型AIモデルの限界に挑戦...