Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました

Googleとジョージア工科大学の研究者が、DiffSegという直感的な後処理AIメソッドを紹介しました

セマンティックセグメンテーションとして知られるコンピュータビジョンのタスクの目的は、画像内の各ピクセルにクラスまたはオブジェクトを割り当てることです。各ピクセルが特定のタイプまたはオブジェクトに対応する、画像の密なピクセルごとのセグメンテーションマップが意図されています。画像の操作、医療画像、自動運転などを含む多くの後続プロセスが、それを前提条件として依存しています。ターゲットデータセットが与えられ、カテゴリが既知の教師ありセマンティックセグメンテーションよりも、未知のカテゴリを持つ画像のゼロショットセグメンテーションははるかに困難です。

最近の人気のある作品SAMで示されているように、1.1Bのセグメンテーション注釈を使用してニューラルネットワークをトレーニングすることで、任意の画像へのゼロショットの転送が実現されています。これは、セグメンテーションが特定のデータセットに制約されるのではなく、さまざまなタスクの構築ブロックとして使用されることを確実にするための重要なステップです。しかし、すべてのピクセルに対してラベルを収集するのはコストがかかります。そのため、注釈やターゲットの事前知識がない、最も制約の少ない状況(つまり、注釈も事前知識もない)での教師なしおよびゼロショットセグメンテーションの技術を探求することは、研究と製品開発において非常に興味深いものです。

GoogleとGeorgia Techの研究者は、安定した拡散(SD)モデルの力を利用して、ユニバーサルセグメンテーションモデルを構築することを提案しています。最近の安定した拡散モデルは、最適なプロンプトを使用して高解像度の画像を生成しています。拡散モデルでは、オブジェクトクラスタに関するデータが存在すると仮定することが妥当です。

拡散モデルの自己注意層は、注意テンソルを生成するため、チームはセグメンテーションマスクを作成するための直感的で効果的な事後処理手法であるDiffSegを導入しました。アルゴリズムの主要な3つの部分は、注意の集計、反復的な基準による注意のマージ、および非最大抑制です。DiffSegは、グリッド上のアンカーポイントをサンプリングして、複数の解像度にわたって視覚情報を保持するように、4Dの注意テンソルを空間的に一貫した方法で集約するための反復的なマージング技術を使用します。サンプリングされたアンカーは、類似したオブジェクトをマージするための注意マスクの出発点として機能します。KLダイバージェンスは、2つの注意マップ間の類似度の度合いを決定し、マージプロセスを制御します。

DiffSegは、一般的なクラスタリングベースの教師なしセグメンテーションアルゴリズムに対する人気のある代替手法です。DiffSegは決定論的であり、クラスタの数の入力を必要としません。DiffSegは、事前知識や専門機器(SAMと同様)を必要とせずに、画像を入力として高品質のセグメンテーションを生成することができます。

以前の試みよりも少ない補助データを使用して、DiffSegは両方のデータセットでより良い結果を達成しています。研究者は、DiffSegを2つの広く使用されているデータセット、教師なしセグメンテーション用のCOCO-Stuff-27と、専用の自動運転データセットであるCityscapesで評価しています。提案された手法は、COCO-Stuff-27のピクセル精度で26%、平均IoUで17%改善し、以前の教師なしゼロショットのSOTA手法と比較しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「注目メカニズムの解読:トランスフォーマーモデルにおける最大幅解法に向けて」

アテンションメカニズムは、自然言語処理と大規模な言語モデルにおいて重要な役割を果たしてきました。アテンションメカニズ...

機械学習

「シュレディンガー・ブリッジはテキスト・トゥ・スピーチ(TTS)合成において拡散モデルに勝るものになっていますか?」

人工知能の進歩に伴い、自然言語処理、自然言語生成、コンピュータビジョンの分野は、最近大きな人気を得ています。これは、...

データサイエンス

プレイヤーの離脱を予測する方法、ChatGPTの助けを借りる

ゲームの世界では、企業はプレイヤーを引きつけるだけでなく、特にゲーム内のマイクロトランザクションに頼る無料のゲームで...

データサイエンス

なぜハイプが重要なのか:AIについて現実的な考え方が必要

ELIZAはChatGPTにいくつかの類似点を持つ初期のチャットボットでしたなぜこの興奮が重要なのでしょうか?船を発明すると、船...

機械学習

「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部...

機械学習

次元をパンプアップせよ:DreamEditorは、テキストプロンプトを使って3Dシーンを編集するAIモデルです

最近、3Dコンピュータビジョンの領域はNeRFで溢れていました。それらは画期的な技術として登場し、シーンの新しいビューの再...