Sealとは、大規模な3Dポイントクラウドに対して自己教示学習のための2Dビジョンファウンデーションモデルを活用し、「任意のポイントクラウドシーケンスをセグメント化する」AIフレームワークです

Seal is an AI framework that uses a 2D vision foundation model for self-supervised learning on large 3D point clouds to segment any point cloud sequence.

大規模言語モデル(LLMs)は、人工知能コミュニティで大きな話題となっています。 最近の影響力と驚異的なパフォーマンスは、ヘルスケア、ファイナンス、エンターテインメントなど、広範な産業に貢献しています。 GPT-3.5、GPT 4、DALLE 2、BERTなどのよく知られたLLMs、または基礎モデルは、短い自然言語プロンプトだけで独自のコンテンツを生成することにより、非常に優れたタスクを実行し、私たちの生活を簡素化しています。

SAM、X-Decoder、SEEMなどの最近のビジョン基礎モデル(VFMs)は、コンピュータビジョンの多くの進歩を遂げています。 VFMsは2D認識タスクで大きな進展を遂げていますが、3D VFM研究はまだ改善が必要です。 現在の2D VFMsを3D認識タスクに拡張することが必要であると研究者は提言しています。 重要な3D認識タスクの1つは、自動車用LiDARセンサによってキャプチャされたポイントクラウドのセグメンテーションであり、自動運転車の安全な運行に必要です。

既存のポイントクラウドセグメンテーション技術は、主にトレーニングのために注釈付けされた大規模なデータセットに依存しています。 ただし、ポイントクラウドのラベリングは時間がかかり、困難です。 すべての課題を克服するために、研究者チームは、自己教師あり表現学習をサポートするためにVFMsから意味的に豊かな知識を収集するSealというフレームワークを紹介しました。 クロスモーダル表現学習に着想を得て、Sealは、LiDARとカメラセンサの2D-3D関係を使用してクロスモーダル表現学習に高品質の対比的サンプルを開発することにより、自動車用ポイントクラウドでセルフサポート表現学習を実現します。

Sealには、拡張性、一貫性、汎用性の3つの重要な特性があります。

  1. 拡張性 – Sealは、VFMsを単にポイントクラウドに変換することで使用し、事前トレーニングの段階で2Dまたは3Dの注釈が必要なくなります。そのため、人間の注釈が必要な時間を削減するだけでなく、大量のデータを処理できます。
  1. 一貫性:アーキテクチャは、カメラからLiDARへのスペーシャルおよびテンポラルリンク、およびポイントからセグメントステージの両方でスペーシャルおよびテンポラルリンクを強制します。 Sealは、クロスモーダル相互作用をキャプチャすることにより、ビジョン、すなわちカメラとLiDARセンサのクロスモーダル相互作用を捕捉して、両モダリティから適切で一貫したデータを含む学習された表現を確実にします。
  1. 汎用性:Sealは、さまざまなポイントクラウドデータセットを含む下流アプリケーションに対する知識移転を可能にします。 それは、さまざまな解像度、サイズ、クリーン度、汚染レベル、実際のデータ、および人工データを持つデータセットを扱います。

研究チームが挙げた主な貢献のいくつかは次のとおりです。

  1. 提案されたSealフレームワークは、意味的なスペーシャルおよびテンポラル一貫性を捕捉するために作成されたスケーラブルで信頼性の高い汎用フレームワークです。
  1. 自動車用ポイントクラウドシーケンスから有用なフィーチャを抽出することができます。
  1. 著者は、この研究が、3Dポイントクラウドの大規模な自己教師あり表現学習に2Dビジョン基礎モデルを初めて使用したものであると述べています。
  1. 11種類の異なるポイントクラウドデータセット全てで、Sealは線形探査とファインチューニングの両方で以前の方法よりも優れた性能を発揮しました。

チームは、評価のために11種類の異なるポイントクラウドデータセットでテストを行い、Sealのパフォーマンスを評価しました。 結果は、既存の手法に比べてSealの優位性を示しています。 nuScenesデータセットでは、Sealは線形探査後に驚異的な平均IoU(Intersection over Union)45.0%を達成しました。 このパフォーマンスは、ランダム初期化よりも36.9%のIoUで、以前のSOTA手法を6.1%のIoUで上回りました。 Sealは、全11種類のテストされたポイントクラウドデータセット全体で、20種類の異なるフューショットファインチューニングタスクで著しい性能向上を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「生成AIによる法科学の進展」

はじめに 法科学における生成AIは、人工知能技術を応用してデータ、画像、または他の法科学に関連する証拠情報を生成すること...

AI研究

アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取...

データサイエンス

新しいLAMPスタック:生成AI開発の革新を照らす

LAMPスタックは、さまざまなドメインでの生成型AIの開発と展開において必須となってきています

AI研究

「自己教師あり学習とトランスフォーマー? - DINO論文の解説」

「一部の人々は、Transformerのアーキテクチャを愛し、それをコンピュータビジョンの領域に歓迎しています他の人々は、新しい...

AIニュース

「カスタムGPT-4チャットボットの作り方」

ダンテは、技術的な能力に関係なく、誰でも5分以内に専用のAIチャットボットを作成、トレーニング、展開できるようにします

データサイエンス

「明日のAIによるサイバーセキュリティの風景に備える」

「AIの能力は二律背反の剣であり、既存のセキュリティ製品の効果を向上させる強力なツールである一方で、より洗練された脅威...