Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました

Googleとジョージア工科大学の研究者が、DiffSegという直感的な後処理AIメソッドを紹介しました

セマンティックセグメンテーションとして知られるコンピュータビジョンのタスクの目的は、画像内の各ピクセルにクラスまたはオブジェクトを割り当てることです。各ピクセルが特定のタイプまたはオブジェクトに対応する、画像の密なピクセルごとのセグメンテーションマップが意図されています。画像の操作、医療画像、自動運転などを含む多くの後続プロセスが、それを前提条件として依存しています。ターゲットデータセットが与えられ、カテゴリが既知の教師ありセマンティックセグメンテーションよりも、未知のカテゴリを持つ画像のゼロショットセグメンテーションははるかに困難です。

最近の人気のある作品SAMで示されているように、1.1Bのセグメンテーション注釈を使用してニューラルネットワークをトレーニングすることで、任意の画像へのゼロショットの転送が実現されています。これは、セグメンテーションが特定のデータセットに制約されるのではなく、さまざまなタスクの構築ブロックとして使用されることを確実にするための重要なステップです。しかし、すべてのピクセルに対してラベルを収集するのはコストがかかります。そのため、注釈やターゲットの事前知識がない、最も制約の少ない状況(つまり、注釈も事前知識もない)での教師なしおよびゼロショットセグメンテーションの技術を探求することは、研究と製品開発において非常に興味深いものです。

GoogleとGeorgia Techの研究者は、安定した拡散(SD)モデルの力を利用して、ユニバーサルセグメンテーションモデルを構築することを提案しています。最近の安定した拡散モデルは、最適なプロンプトを使用して高解像度の画像を生成しています。拡散モデルでは、オブジェクトクラスタに関するデータが存在すると仮定することが妥当です。

拡散モデルの自己注意層は、注意テンソルを生成するため、チームはセグメンテーションマスクを作成するための直感的で効果的な事後処理手法であるDiffSegを導入しました。アルゴリズムの主要な3つの部分は、注意の集計、反復的な基準による注意のマージ、および非最大抑制です。DiffSegは、グリッド上のアンカーポイントをサンプリングして、複数の解像度にわたって視覚情報を保持するように、4Dの注意テンソルを空間的に一貫した方法で集約するための反復的なマージング技術を使用します。サンプリングされたアンカーは、類似したオブジェクトをマージするための注意マスクの出発点として機能します。KLダイバージェンスは、2つの注意マップ間の類似度の度合いを決定し、マージプロセスを制御します。

DiffSegは、一般的なクラスタリングベースの教師なしセグメンテーションアルゴリズムに対する人気のある代替手法です。DiffSegは決定論的であり、クラスタの数の入力を必要としません。DiffSegは、事前知識や専門機器(SAMと同様)を必要とせずに、画像を入力として高品質のセグメンテーションを生成することができます。

以前の試みよりも少ない補助データを使用して、DiffSegは両方のデータセットでより良い結果を達成しています。研究者は、DiffSegを2つの広く使用されているデータセット、教師なしセグメンテーション用のCOCO-Stuff-27と、専用の自動運転データセットであるCityscapesで評価しています。提案された手法は、COCO-Stuff-27のピクセル精度で26%、平均IoUで17%改善し、以前の教師なしゼロショットのSOTA手法と比較しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「プロダクションに適したRAGアプリケーションの12のチューニング戦略ガイド」

「実稼働のための検索増強生成(RAG)アプリケーションのパフォーマンス向上に調整できる戦略とパラメータ」

機械学習

「5つのステップでPyTorchを始めましょう」

このチュートリアルは、PyTorchとその高レベルのラッパー、PyTorch Lightningを使用した機械学習の詳細な紹介を提供しますこ...

機械学習

Google AIは、Symbol Tuningを導入しました:入力-ラベルのマッピングを強調することで、コンテキスト内の学習を改善できるシンプルなファインチューニング方法

言語モデルは、自然言語のラベルが任意のシンボルに置き換えられたコンテキストで提供される入力-ラベルのペアに調整されてい...

AI研究

「NTUシンガポールの研究者たちは、テキストから3D生成のための新しいプラグアンドプレイなリファインメントAIメソッドであるIT3Dを提案しています」

テキストから画像への領域で注目すべき進歩があり、研究コミュニティ内で3D生成への拡大に対する熱意の急増が起きています。...

AI研究

メタAI研究者が高度な長文脈LLMsを提案します:アップサンプリング、トレーニングテクニック、およびGPT-3.5-Turbo-16kの性能を超えるための深い探求

“`html 大規模言語モデル(LLM)の出現は、自然言語処理における画期的な進展を示しています。これらのモデルは膨大な...

データサイエンス

「強化学習を使用してLeetcodeの問題を解決する」

最近、leetcodeで「障害物を排除したグリッド内の最短経路」に関する質問に出会いました障害物を排除したグリッド内の最短経...