Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました

Googleとジョージア工科大学の研究者が、DiffSegという直感的な後処理AIメソッドを紹介しました

セマンティックセグメンテーションとして知られるコンピュータビジョンのタスクの目的は、画像内の各ピクセルにクラスまたはオブジェクトを割り当てることです。各ピクセルが特定のタイプまたはオブジェクトに対応する、画像の密なピクセルごとのセグメンテーションマップが意図されています。画像の操作、医療画像、自動運転などを含む多くの後続プロセスが、それを前提条件として依存しています。ターゲットデータセットが与えられ、カテゴリが既知の教師ありセマンティックセグメンテーションよりも、未知のカテゴリを持つ画像のゼロショットセグメンテーションははるかに困難です。

最近の人気のある作品SAMで示されているように、1.1Bのセグメンテーション注釈を使用してニューラルネットワークをトレーニングすることで、任意の画像へのゼロショットの転送が実現されています。これは、セグメンテーションが特定のデータセットに制約されるのではなく、さまざまなタスクの構築ブロックとして使用されることを確実にするための重要なステップです。しかし、すべてのピクセルに対してラベルを収集するのはコストがかかります。そのため、注釈やターゲットの事前知識がない、最も制約の少ない状況(つまり、注釈も事前知識もない)での教師なしおよびゼロショットセグメンテーションの技術を探求することは、研究と製品開発において非常に興味深いものです。

GoogleとGeorgia Techの研究者は、安定した拡散(SD)モデルの力を利用して、ユニバーサルセグメンテーションモデルを構築することを提案しています。最近の安定した拡散モデルは、最適なプロンプトを使用して高解像度の画像を生成しています。拡散モデルでは、オブジェクトクラスタに関するデータが存在すると仮定することが妥当です。

拡散モデルの自己注意層は、注意テンソルを生成するため、チームはセグメンテーションマスクを作成するための直感的で効果的な事後処理手法であるDiffSegを導入しました。アルゴリズムの主要な3つの部分は、注意の集計、反復的な基準による注意のマージ、および非最大抑制です。DiffSegは、グリッド上のアンカーポイントをサンプリングして、複数の解像度にわたって視覚情報を保持するように、4Dの注意テンソルを空間的に一貫した方法で集約するための反復的なマージング技術を使用します。サンプリングされたアンカーは、類似したオブジェクトをマージするための注意マスクの出発点として機能します。KLダイバージェンスは、2つの注意マップ間の類似度の度合いを決定し、マージプロセスを制御します。

DiffSegは、一般的なクラスタリングベースの教師なしセグメンテーションアルゴリズムに対する人気のある代替手法です。DiffSegは決定論的であり、クラスタの数の入力を必要としません。DiffSegは、事前知識や専門機器(SAMと同様)を必要とせずに、画像を入力として高品質のセグメンテーションを生成することができます。

以前の試みよりも少ない補助データを使用して、DiffSegは両方のデータセットでより良い結果を達成しています。研究者は、DiffSegを2つの広く使用されているデータセット、教師なしセグメンテーション用のCOCO-Stuff-27と、専用の自動運転データセットであるCityscapesで評価しています。提案された手法は、COCO-Stuff-27のピクセル精度で26%、平均IoUで17%改善し、以前の教師なしゼロショットのSOTA手法と比較しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」

大規模言語モデルは、その超すばらしい能力によって多くの評価を集めています。彼らは人間を模倣し、人間のようにコンテンツ...

機械学習

『過学習から卓越へ:正則化の力を活用する』

機械学習に関して言えば、私たちの目的は、訓練されていないデータに対して最も正確な予測を行うMLモデルを見つけることです...

データサイエンス

「非構造化データ内のデータスライスの検出」 翻訳結果は以下の通りです: 「非構造化データ内でデータスライスを見つける」

データスライスは、モデルが異常な動作をするデータの意味のあるサブセットです非構造化データの問題(例:画像、テキスト)...

データサイエンス

マシンラーニングエンジニアは、実際に何をしているのでしょうか?

「タイトルはもちろんトリックの質問ですデータサイエンティストの前にも、機械学習エンジニアというタイトルは、私たちの専...

機械学習

機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索

アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生...