Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました

Googleとジョージア工科大学の研究者が、DiffSegという直感的な後処理AIメソッドを紹介しました

セマンティックセグメンテーションとして知られるコンピュータビジョンのタスクの目的は、画像内の各ピクセルにクラスまたはオブジェクトを割り当てることです。各ピクセルが特定のタイプまたはオブジェクトに対応する、画像の密なピクセルごとのセグメンテーションマップが意図されています。画像の操作、医療画像、自動運転などを含む多くの後続プロセスが、それを前提条件として依存しています。ターゲットデータセットが与えられ、カテゴリが既知の教師ありセマンティックセグメンテーションよりも、未知のカテゴリを持つ画像のゼロショットセグメンテーションははるかに困難です。

最近の人気のある作品SAMで示されているように、1.1Bのセグメンテーション注釈を使用してニューラルネットワークをトレーニングすることで、任意の画像へのゼロショットの転送が実現されています。これは、セグメンテーションが特定のデータセットに制約されるのではなく、さまざまなタスクの構築ブロックとして使用されることを確実にするための重要なステップです。しかし、すべてのピクセルに対してラベルを収集するのはコストがかかります。そのため、注釈やターゲットの事前知識がない、最も制約の少ない状況(つまり、注釈も事前知識もない)での教師なしおよびゼロショットセグメンテーションの技術を探求することは、研究と製品開発において非常に興味深いものです。

GoogleとGeorgia Techの研究者は、安定した拡散(SD)モデルの力を利用して、ユニバーサルセグメンテーションモデルを構築することを提案しています。最近の安定した拡散モデルは、最適なプロンプトを使用して高解像度の画像を生成しています。拡散モデルでは、オブジェクトクラスタに関するデータが存在すると仮定することが妥当です。

拡散モデルの自己注意層は、注意テンソルを生成するため、チームはセグメンテーションマスクを作成するための直感的で効果的な事後処理手法であるDiffSegを導入しました。アルゴリズムの主要な3つの部分は、注意の集計、反復的な基準による注意のマージ、および非最大抑制です。DiffSegは、グリッド上のアンカーポイントをサンプリングして、複数の解像度にわたって視覚情報を保持するように、4Dの注意テンソルを空間的に一貫した方法で集約するための反復的なマージング技術を使用します。サンプリングされたアンカーは、類似したオブジェクトをマージするための注意マスクの出発点として機能します。KLダイバージェンスは、2つの注意マップ間の類似度の度合いを決定し、マージプロセスを制御します。

DiffSegは、一般的なクラスタリングベースの教師なしセグメンテーションアルゴリズムに対する人気のある代替手法です。DiffSegは決定論的であり、クラスタの数の入力を必要としません。DiffSegは、事前知識や専門機器(SAMと同様)を必要とせずに、画像を入力として高品質のセグメンテーションを生成することができます。

以前の試みよりも少ない補助データを使用して、DiffSegは両方のデータセットでより良い結果を達成しています。研究者は、DiffSegを2つの広く使用されているデータセット、教師なしセグメンテーション用のCOCO-Stuff-27と、専用の自動運転データセットであるCityscapesで評価しています。提案された手法は、COCO-Stuff-27のピクセル精度で26%、平均IoUで17%改善し、以前の教師なしゼロショットのSOTA手法と比較しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」

ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の...

AI研究

MITの研究者が新しいAIツール「PhotoGuard」を導入し、不正な画像の操作を防止すると発表しました

AIパワードのテクノロジーが現実と製作物の境界をぼやかす画像を作り出す世界において、誤用のリスクが迫っています。DALL-E...

機械学習

「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」

大規模言語モデル(LLM)は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にない...

AI研究

「ニューヨーク大学の研究者が、人の見かけの年齢を画像内で変える新しい人工知能技術を開発しましたが、その人の独自の識別特徴を維持します」

AIシステムは、画像解析を使用して個人の年齢を正確に推定および変更するために、ますます使用されています。老化の変動に堅...

AIニュース

「OpenAIがGPT-4の力を持つChatGPT Enterpriseを発表」

AI研究の先駆的な組織であるOpenAIは、人工知能の世界における興奮をもたらす新たな章を紹介しました – ChatGPT Enterp...

AI研究

中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました

上海交通大学と中国矿业大学の研究者たちはTransLOを開発しました。このLiDARオドメトリネットワークは、セルフアテンション...