「セマンティック-SAMに会ってください:ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメント化および認識する、万能な画像セグメンテーションモデル」

Please meet Semantic-SAM, a versatile image segmentation model that segments and recognizes objects at any granularity based on user input.

人工知能は近年大きく進化しています。現在の開発である大規模言語モデルの導入により、その人間をまねた驚くべき能力が注目されています。これらのモデルは、自然言語処理だけでなく、コンピュータビジョンの分野でも成功を収めています。AIシステムが自然言語処理や制御可能な画像生成で成功を収めている一方、ユニバーサルな画像セグメンテーションを含むピクセルレベルの画像理解の分野にはまだ制限があります。

画像セグメンテーションは、画像を異なるセクションに分割する技術であり、大きな進展が見られていますが、異なる粒度のさまざまな画像を処理できる汎用の画像セグメンテーションモデルの作成はまだ議論中です。この分野での進歩のための主な課題は、適切なトレーニングデータの入手可能性とモデル設計の柔軟性の制約です。既存の手法では、異なる粒度でセグメンテーションマスクを予測し、細部のレベルを処理することができない単一入力、単一出力のパイプラインが頻繁に使用されています。また、セマンティックな情報と粒度の知識を兼ね備えたセグメンテーションデータセットの拡大は高コストです。

これらの制限に対処するため、研究チームはSemantic-SAMという汎用の画像セグメンテーションモデルを開発しました。このモデルは、ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメンテーションし、認識します。モデルはオブジェクトとピースの両方にセマンティックなラベルを提供し、ユーザーのクリックに応じて異なる粒度でマスクを予測することができます。Semantic-SAMのデコーダーアーキテクチャには、複数の選択肢学習戦略が組み込まれており、モデルにさまざまな粒度を処理する能力を与えています。各クリックは複数のクエリで表され、それぞれが異なる埋め込みレベルを持ちます。クエリは異なる粒度の正解マスクから学習するようにトレーニングされます。

研究チームは、Semantic-SAMがパーツとオブジェクトのために分離されたカテゴリ化戦略を使用してセマンティックな認識の問題に取り組む方法を共有しています。モデルは、共有のテキストエンコーダを使用してオブジェクトとパーツを個別にエンコードし、入力タイプに応じて損失関数を変更することで、異なるセグメンテーション手法を可能にします。この戦略により、いくつかのカテゴリ化ラベルが欠落しているSAMデータセットのみならず、一般的なセグメンテーションデータからもデータを処理できるようになります。

チームは、セマンティックと粒度を高めるために、SA-1Bデータセット、PASCAL Part、PACO、PartImagenetなどのパートセグメンテーションデータセット、MSCOCO、Objects365などの一般的なセグメンテーションデータセットを含む7つのデータセットを組み合わせました。データ形式はSemantic-SAMのトレーニング目標に準拠するように再配置されました。

評価とテストの結果、Semantic-SAMは既存のモデルと比較して優れたパフォーマンスを示しました。SA-1Bのプロンプト可能なセグメンテーションやCOCOパノプティックセグメンテーションなどの対話型セグメンテーション技術と組み合わせてトレーニングすると、パフォーマンスが大幅に向上します。このモデルは、2.3のボックスAPゲインと1.2のマスクAPゲインを達成しています。また、粒度の完全性に関して、SAMよりも3.4以上の1-IoUで優れたパフォーマンスを発揮します。

Semantic-SAMは、画像セグメンテーションの分野における革新的な進歩です。このモデルは、ユニバーサルな表現、セマンティックな認識、粒度の豊富さを組み合わせることで、ピクセルレベルの画像分析の新たな可能性を創出します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

生成型AIによる検索のスーパーチャージ

私たちは、ジェネレーティブAIを使用するSGE(Search Generative Experience)という名前の検索ラボの実験から始めます

データサイエンス

「PandasAIを用いたデータ分析における生成型AIの活用」

「生成モデルを適用することで、PandasAIは人間のようなクエリを理解し、応答することができ、複雑なデータの操作を実行し、...

機械学習

自然言語処理:AIを通じて人間のコミュニケーションの力を解き放つ

この記事では、NLPの理解と進化について取り上げますAIがコミュニケーションの世界にどのように貢献できるかを学びましょう

データサイエンス

「画像のためのモダンなセマンティック検索」

「数年前の「あの一枚の写真」を見つけたいんですね場面に関するいくつかの具体的な情報を覚えているんですが、Apple Photos...

機械学習

「ディープラーニングを用いたナノアレイの開発:特定の構造色を生み出すことができるナノホールアレイを設計する新しいAI手法」

色の多様性は、2つ以上の色の組み合わせによってさらに増加します。光は微細なナノ構造と相互作用し、複数の色の固有のパター...

データサイエンス

「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上...