「セマンティック-SAMに会ってください:ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメント化および認識する、万能な画像セグメンテーションモデル」

Please meet Semantic-SAM, a versatile image segmentation model that segments and recognizes objects at any granularity based on user input.

人工知能は近年大きく進化しています。現在の開発である大規模言語モデルの導入により、その人間をまねた驚くべき能力が注目されています。これらのモデルは、自然言語処理だけでなく、コンピュータビジョンの分野でも成功を収めています。AIシステムが自然言語処理や制御可能な画像生成で成功を収めている一方、ユニバーサルな画像セグメンテーションを含むピクセルレベルの画像理解の分野にはまだ制限があります。

画像セグメンテーションは、画像を異なるセクションに分割する技術であり、大きな進展が見られていますが、異なる粒度のさまざまな画像を処理できる汎用の画像セグメンテーションモデルの作成はまだ議論中です。この分野での進歩のための主な課題は、適切なトレーニングデータの入手可能性とモデル設計の柔軟性の制約です。既存の手法では、異なる粒度でセグメンテーションマスクを予測し、細部のレベルを処理することができない単一入力、単一出力のパイプラインが頻繁に使用されています。また、セマンティックな情報と粒度の知識を兼ね備えたセグメンテーションデータセットの拡大は高コストです。

これらの制限に対処するため、研究チームはSemantic-SAMという汎用の画像セグメンテーションモデルを開発しました。このモデルは、ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメンテーションし、認識します。モデルはオブジェクトとピースの両方にセマンティックなラベルを提供し、ユーザーのクリックに応じて異なる粒度でマスクを予測することができます。Semantic-SAMのデコーダーアーキテクチャには、複数の選択肢学習戦略が組み込まれており、モデルにさまざまな粒度を処理する能力を与えています。各クリックは複数のクエリで表され、それぞれが異なる埋め込みレベルを持ちます。クエリは異なる粒度の正解マスクから学習するようにトレーニングされます。

研究チームは、Semantic-SAMがパーツとオブジェクトのために分離されたカテゴリ化戦略を使用してセマンティックな認識の問題に取り組む方法を共有しています。モデルは、共有のテキストエンコーダを使用してオブジェクトとパーツを個別にエンコードし、入力タイプに応じて損失関数を変更することで、異なるセグメンテーション手法を可能にします。この戦略により、いくつかのカテゴリ化ラベルが欠落しているSAMデータセットのみならず、一般的なセグメンテーションデータからもデータを処理できるようになります。

チームは、セマンティックと粒度を高めるために、SA-1Bデータセット、PASCAL Part、PACO、PartImagenetなどのパートセグメンテーションデータセット、MSCOCO、Objects365などの一般的なセグメンテーションデータセットを含む7つのデータセットを組み合わせました。データ形式はSemantic-SAMのトレーニング目標に準拠するように再配置されました。

評価とテストの結果、Semantic-SAMは既存のモデルと比較して優れたパフォーマンスを示しました。SA-1Bのプロンプト可能なセグメンテーションやCOCOパノプティックセグメンテーションなどの対話型セグメンテーション技術と組み合わせてトレーニングすると、パフォーマンスが大幅に向上します。このモデルは、2.3のボックスAPゲインと1.2のマスクAPゲインを達成しています。また、粒度の完全性に関して、SAMよりも3.4以上の1-IoUで優れたパフォーマンスを発揮します。

Semantic-SAMは、画像セグメンテーションの分野における革新的な進歩です。このモデルは、ユニバーサルな表現、セマンティックな認識、粒度の豊富さを組み合わせることで、ピクセルレベルの画像分析の新たな可能性を創出します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして依然として人間も重要

LinkedInのフィードとインフラの最新更新について読むと、人間を中心に据えた原則を技術用語と実装に繋げる方法が解説されて...

機械学習

AIの時代のコーディング:ChatGPTの役割と次世代プログラミング

ChatGPTはデジタルの世界を変えつつあり、プログラミングも例外ではありませんプログラマーにどのように助けられ、コーディン...

AIニュース

「AI自動化と性別格差:AIが女性労働者に与える影響」

人工知能(AI)の進歩により、労働の未来が再構築されつつあります。AIによる自動化による仕事の喪失への恐怖は広まっていま...

AIテクノロジー

ヨーロッパのAI最大手MISTRAL AIが3億8500万ユーロを調達

技術のダイナミックな世界では、人工知能(AI)が産業を再構築している中、フランスのスタートアップ企業であるMistral AIが...

機械学習

「PyTorchモデルのパフォーマンス分析と最適化—パート6」

「これは、PyTorch ProfilerとTensorBoardを使用してPyTorchモデルを分析および最適化するトピックに関するシリーズ投稿の第6...

人工知能

「APIガバナンスによるAIインフラストラクチャのコスト削減」

APIガバナンスは、リソースの割り当てを最適化し、利用状況をモニタリングし、セキュリティを強化することによって、組織がAI...