「セマンティック-SAMに会ってください:ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメント化および認識する、万能な画像セグメンテーションモデル」

Please meet Semantic-SAM, a versatile image segmentation model that segments and recognizes objects at any granularity based on user input.

人工知能は近年大きく進化しています。現在の開発である大規模言語モデルの導入により、その人間をまねた驚くべき能力が注目されています。これらのモデルは、自然言語処理だけでなく、コンピュータビジョンの分野でも成功を収めています。AIシステムが自然言語処理や制御可能な画像生成で成功を収めている一方、ユニバーサルな画像セグメンテーションを含むピクセルレベルの画像理解の分野にはまだ制限があります。

画像セグメンテーションは、画像を異なるセクションに分割する技術であり、大きな進展が見られていますが、異なる粒度のさまざまな画像を処理できる汎用の画像セグメンテーションモデルの作成はまだ議論中です。この分野での進歩のための主な課題は、適切なトレーニングデータの入手可能性とモデル設計の柔軟性の制約です。既存の手法では、異なる粒度でセグメンテーションマスクを予測し、細部のレベルを処理することができない単一入力、単一出力のパイプラインが頻繁に使用されています。また、セマンティックな情報と粒度の知識を兼ね備えたセグメンテーションデータセットの拡大は高コストです。

これらの制限に対処するため、研究チームはSemantic-SAMという汎用の画像セグメンテーションモデルを開発しました。このモデルは、ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメンテーションし、認識します。モデルはオブジェクトとピースの両方にセマンティックなラベルを提供し、ユーザーのクリックに応じて異なる粒度でマスクを予測することができます。Semantic-SAMのデコーダーアーキテクチャには、複数の選択肢学習戦略が組み込まれており、モデルにさまざまな粒度を処理する能力を与えています。各クリックは複数のクエリで表され、それぞれが異なる埋め込みレベルを持ちます。クエリは異なる粒度の正解マスクから学習するようにトレーニングされます。

研究チームは、Semantic-SAMがパーツとオブジェクトのために分離されたカテゴリ化戦略を使用してセマンティックな認識の問題に取り組む方法を共有しています。モデルは、共有のテキストエンコーダを使用してオブジェクトとパーツを個別にエンコードし、入力タイプに応じて損失関数を変更することで、異なるセグメンテーション手法を可能にします。この戦略により、いくつかのカテゴリ化ラベルが欠落しているSAMデータセットのみならず、一般的なセグメンテーションデータからもデータを処理できるようになります。

チームは、セマンティックと粒度を高めるために、SA-1Bデータセット、PASCAL Part、PACO、PartImagenetなどのパートセグメンテーションデータセット、MSCOCO、Objects365などの一般的なセグメンテーションデータセットを含む7つのデータセットを組み合わせました。データ形式はSemantic-SAMのトレーニング目標に準拠するように再配置されました。

評価とテストの結果、Semantic-SAMは既存のモデルと比較して優れたパフォーマンスを示しました。SA-1Bのプロンプト可能なセグメンテーションやCOCOパノプティックセグメンテーションなどの対話型セグメンテーション技術と組み合わせてトレーニングすると、パフォーマンスが大幅に向上します。このモデルは、2.3のボックスAPゲインと1.2のマスクAPゲインを達成しています。また、粒度の完全性に関して、SAMよりも3.4以上の1-IoUで優れたパフォーマンスを発揮します。

Semantic-SAMは、画像セグメンテーションの分野における革新的な進歩です。このモデルは、ユニバーサルな表現、セマンティックな認識、粒度の豊富さを組み合わせることで、ピクセルレベルの画像分析の新たな可能性を創出します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

埋め込みの類似検索:データ分析の画期的な変革

オラクルは、意味に基づいて文書を取り込み、保存し、取り出すための生成的AI機能を、クラウドデータ分析サービスに追加しました

AIニュース

Google Cloudがマッコーリー銀行のAIバンキング機能を強化するのを支援します

マッコーリーのバンキング&金融サービスグループは、人工知能(AI)と機械学習(ML)の力を結集し、銀行業界を変革するため...

機械学習

「PyTorchモデルのパフォーマンス分析と最適化 - パート3」

これは、PyTorch ProfilerとTensorBoardを使用してPyTorchモデルの分析と最適化を行うトピックに関するシリーズ投稿の3部目で...

AI研究

「強力な遺産:研究者の母が核融合への情熱をかきたてる」

編集者のメモ:これは、高性能コンピューティングを用いて科学を進める研究者を紹介するシリーズの一部です。 高校に入る前、...

機械学習

エンタープライズAIとは何ですか?

エンタープライズAIの紹介 時間は重要であり、自動化が答えです。退屈で単調なタスク、人間によるミス、競争の混乱、そして最...

機械学習

バーゼル大学病院が、「TotalSegmentator」を発表:体のCT画像の主要な解剖構造を自動的にセグメント化するための深層学習セグメンテーションモデル

過去数年間、実施されるCTスキャンの数と利用可能なデータ処理能力は増加してきました。ディープラーニングの進展により、画...