Sealとは、大規模な3Dポイントクラウドに対して自己教示学習のための2Dビジョンファウンデーションモデルを活用し、「任意のポイントクラウドシーケンスをセグメント化する」AIフレームワークです

Seal is an AI framework that uses a 2D vision foundation model for self-supervised learning on large 3D point clouds to segment any point cloud sequence.

大規模言語モデル(LLMs)は、人工知能コミュニティで大きな話題となっています。 最近の影響力と驚異的なパフォーマンスは、ヘルスケア、ファイナンス、エンターテインメントなど、広範な産業に貢献しています。 GPT-3.5、GPT 4、DALLE 2、BERTなどのよく知られたLLMs、または基礎モデルは、短い自然言語プロンプトだけで独自のコンテンツを生成することにより、非常に優れたタスクを実行し、私たちの生活を簡素化しています。

SAM、X-Decoder、SEEMなどの最近のビジョン基礎モデル(VFMs)は、コンピュータビジョンの多くの進歩を遂げています。 VFMsは2D認識タスクで大きな進展を遂げていますが、3D VFM研究はまだ改善が必要です。 現在の2D VFMsを3D認識タスクに拡張することが必要であると研究者は提言しています。 重要な3D認識タスクの1つは、自動車用LiDARセンサによってキャプチャされたポイントクラウドのセグメンテーションであり、自動運転車の安全な運行に必要です。

既存のポイントクラウドセグメンテーション技術は、主にトレーニングのために注釈付けされた大規模なデータセットに依存しています。 ただし、ポイントクラウドのラベリングは時間がかかり、困難です。 すべての課題を克服するために、研究者チームは、自己教師あり表現学習をサポートするためにVFMsから意味的に豊かな知識を収集するSealというフレームワークを紹介しました。 クロスモーダル表現学習に着想を得て、Sealは、LiDARとカメラセンサの2D-3D関係を使用してクロスモーダル表現学習に高品質の対比的サンプルを開発することにより、自動車用ポイントクラウドでセルフサポート表現学習を実現します。

Sealには、拡張性、一貫性、汎用性の3つの重要な特性があります。

  1. 拡張性 – Sealは、VFMsを単にポイントクラウドに変換することで使用し、事前トレーニングの段階で2Dまたは3Dの注釈が必要なくなります。そのため、人間の注釈が必要な時間を削減するだけでなく、大量のデータを処理できます。
  1. 一貫性:アーキテクチャは、カメラからLiDARへのスペーシャルおよびテンポラルリンク、およびポイントからセグメントステージの両方でスペーシャルおよびテンポラルリンクを強制します。 Sealは、クロスモーダル相互作用をキャプチャすることにより、ビジョン、すなわちカメラとLiDARセンサのクロスモーダル相互作用を捕捉して、両モダリティから適切で一貫したデータを含む学習された表現を確実にします。
  1. 汎用性:Sealは、さまざまなポイントクラウドデータセットを含む下流アプリケーションに対する知識移転を可能にします。 それは、さまざまな解像度、サイズ、クリーン度、汚染レベル、実際のデータ、および人工データを持つデータセットを扱います。

研究チームが挙げた主な貢献のいくつかは次のとおりです。

  1. 提案されたSealフレームワークは、意味的なスペーシャルおよびテンポラル一貫性を捕捉するために作成されたスケーラブルで信頼性の高い汎用フレームワークです。
  1. 自動車用ポイントクラウドシーケンスから有用なフィーチャを抽出することができます。
  1. 著者は、この研究が、3Dポイントクラウドの大規模な自己教師あり表現学習に2Dビジョン基礎モデルを初めて使用したものであると述べています。
  1. 11種類の異なるポイントクラウドデータセット全てで、Sealは線形探査とファインチューニングの両方で以前の方法よりも優れた性能を発揮しました。

チームは、評価のために11種類の異なるポイントクラウドデータセットでテストを行い、Sealのパフォーマンスを評価しました。 結果は、既存の手法に比べてSealの優位性を示しています。 nuScenesデータセットでは、Sealは線形探査後に驚異的な平均IoU(Intersection over Union)45.0%を達成しました。 このパフォーマンスは、ランダム初期化よりも36.9%のIoUで、以前のSOTA手法を6.1%のIoUで上回りました。 Sealは、全11種類のテストされたポイントクラウドデータセット全体で、20種類の異なるフューショットファインチューニングタスクで著しい性能向上を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

コンテンツクリエーターに必要不可欠なChatGPTプラグイン

「CodeGenius、StoryWeaver、およびFactFinderなどの必須のChatGPTプラグインを見つけて、コンテンツ作成プロセスを向上させ...

人工知能

ミッドジャーニープロンプトのTシャツデザイン

Tシャツビジネス帝国を築きたい場合は、Midjourneyは美しいTシャツデザインを作成するための素晴らしいツールです

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

データサイエンス

「ジェネレーティブAI 2024年とその先:未来の一瞥」

「ジェネレーティブAIファブリックの台頭から倫理が新しいNFRとなるまで、ジェネレーティブAI技術が2024年にもたらすものを探...

機械学習

「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」

このシリーズの第1部では、RNNモデルのバックプロパゲーションを解説し、数式と数値を用いてRNNにおける勾配消失問題を説明し...

機械学習

「自己改善のための生成AIと強化学習の統合」

イントロダクション 人工知能の進化する領域において、二つの主要な要素が刷新を果たしました:生成型AIと強化学習。これらの...