Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました

Googleとジョージア工科大学の研究者が、DiffSegという直感的な後処理AIメソッドを紹介しました

セマンティックセグメンテーションとして知られるコンピュータビジョンのタスクの目的は、画像内の各ピクセルにクラスまたはオブジェクトを割り当てることです。各ピクセルが特定のタイプまたはオブジェクトに対応する、画像の密なピクセルごとのセグメンテーションマップが意図されています。画像の操作、医療画像、自動運転などを含む多くの後続プロセスが、それを前提条件として依存しています。ターゲットデータセットが与えられ、カテゴリが既知の教師ありセマンティックセグメンテーションよりも、未知のカテゴリを持つ画像のゼロショットセグメンテーションははるかに困難です。

最近の人気のある作品SAMで示されているように、1.1Bのセグメンテーション注釈を使用してニューラルネットワークをトレーニングすることで、任意の画像へのゼロショットの転送が実現されています。これは、セグメンテーションが特定のデータセットに制約されるのではなく、さまざまなタスクの構築ブロックとして使用されることを確実にするための重要なステップです。しかし、すべてのピクセルに対してラベルを収集するのはコストがかかります。そのため、注釈やターゲットの事前知識がない、最も制約の少ない状況(つまり、注釈も事前知識もない)での教師なしおよびゼロショットセグメンテーションの技術を探求することは、研究と製品開発において非常に興味深いものです。

GoogleとGeorgia Techの研究者は、安定した拡散(SD)モデルの力を利用して、ユニバーサルセグメンテーションモデルを構築することを提案しています。最近の安定した拡散モデルは、最適なプロンプトを使用して高解像度の画像を生成しています。拡散モデルでは、オブジェクトクラスタに関するデータが存在すると仮定することが妥当です。

拡散モデルの自己注意層は、注意テンソルを生成するため、チームはセグメンテーションマスクを作成するための直感的で効果的な事後処理手法であるDiffSegを導入しました。アルゴリズムの主要な3つの部分は、注意の集計、反復的な基準による注意のマージ、および非最大抑制です。DiffSegは、グリッド上のアンカーポイントをサンプリングして、複数の解像度にわたって視覚情報を保持するように、4Dの注意テンソルを空間的に一貫した方法で集約するための反復的なマージング技術を使用します。サンプリングされたアンカーは、類似したオブジェクトをマージするための注意マスクの出発点として機能します。KLダイバージェンスは、2つの注意マップ間の類似度の度合いを決定し、マージプロセスを制御します。

DiffSegは、一般的なクラスタリングベースの教師なしセグメンテーションアルゴリズムに対する人気のある代替手法です。DiffSegは決定論的であり、クラスタの数の入力を必要としません。DiffSegは、事前知識や専門機器(SAMと同様)を必要とせずに、画像を入力として高品質のセグメンテーションを生成することができます。

以前の試みよりも少ない補助データを使用して、DiffSegは両方のデータセットでより良い結果を達成しています。研究者は、DiffSegを2つの広く使用されているデータセット、教師なしセグメンテーション用のCOCO-Stuff-27と、専用の自動運転データセットであるCityscapesで評価しています。提案された手法は、COCO-Stuff-27のピクセル精度で26%、平均IoUで17%改善し、以前の教師なしゼロショットのSOTA手法と比較しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

AI研究

新しいAI研究がGPT4RoIを紹介します:地域テキストペアに基づくInstruction Tuning大規模言語モデル(LLM)によるビジョン言語モデル

大型言語モデル(LLM)は最近、自然言語処理を必要とする会話タスクで驚異的なパフォーマンスを発揮し、大きな進歩を遂げてい...

AIニュース

「2023年最高のAIプレゼンテーションツール」

現代のプレゼンテーションソフトウェアは、静止画のスライドと基本的なトランジションの時代を超えています。人工知能(AI)...

データサイエンス

「MLOpsは過学習していますその理由をここで説明します」

「MLは、独自のDevOpsアプローチとそれにマッチするインフラストラクチャを必要とするユニークなプラクティスですか? MLOps...

データサイエンス

ツリー構造パーゼン推定器(Hyperopt)を使ったハイパーパラメータのチューニングの向上

この記事では、機械学習におけるハイパーパラメータ調整のためのTree-Structured Parzen Estimator(TPE)の概念と、具体的な...

機械学習

新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます

サイバーセキュリティの防御者は、技術の発展とシステムの複雑さのレベルが上昇するにつれて、自分たちの技術と戦術を動的に...