サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました

Sally大学 researchers developed a sketch-based object detection tool that revolutionizes image recognition in machine learning.

旧石器時代から、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストロークフィッティングなどのより新しいアプリケーションまで、スケッチの使用方法を理解するために大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその細かいグレインの対応(FGSBIR)だけが、スケッチの表現力の潜在能力を調査しています。最近のシステムは、すでに商業的に適応するために十分に成熟しており、スケッチの表現力を開発することがどれだけ重要かを示す素晴らしい証拠です。

スケッチは非常に示唆的であり、自動的に微妙で個人的な視覚的手がかりをキャプチャするためです。しかし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの示唆的な力を使用して、ビジョンの最も基本的なタスクであるシーン内のオブジェクトの検出にシステムをトレーニングするようになっています。最終的な製品は、スケッチに基づくオブジェクトの検出フレームワークであり、つまり、群れの中の特定の「シマウマ」(たとえば、草を食べているシマウマ)にピンポイントでアプローチできるようになります。さらに、研究者たちは、モデルが次のようなことなしに成功することを課しています。

  • (ゼロショット)テストに何らかの結果を期待せずに進むこと。
  • (完全に教師付きのように)追加の境界ボックスやクラスラベルを必要としないこと。

研究者たちは、スケッチに基づく検出器も、ゼロショットの方法で動作することを要求しており、システムの新規性を高めています。以下のセクションで、彼らはオブジェクト検出を閉じたセットからオープンボキャブ構成に切り替える方法を詳述しています。たとえば、オブジェクトディテクターは、分類ヘッドの代わりにプロトタイプ学習を使用し、エンコードされたクエリスケッチ機能をサポートセットとして使用します。モデルは、ウィークリー教師ありオブジェクト検出(WSOD)環境で、すべての考えられるカテゴリまたはインスタンスのプロトタイプに対する多カテゴリ交差エントロピー損失を使用してトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。これにより、SBIRオブジェクト検出器のトレーニングでは、オブジェクトレベルと画像レベルの特性の間に橋渡しが必要です。

研究者たちの貢献は次のとおりです。

  • 人間のスケッチの表現力を養うことによるオブジェクト検出の改善。
  • スケッチに基づいたオブジェクト識別フレームワークの構築。スケッチを理解しているものであり、カテゴリレベル、インスタンスレベル、パーツレベルの検出が可能です。
  • クリップとSBIRを組み合わせた新しいプロンプト学習構成によるスケッチに注意を払った検出器の作成。バウンディングボックスの注釈やクラスラベルなしでゼロショットファッションで機能します。
  • 結果は、ゼロショット設定でSODおよびWSODよりも優れています。

研究者たちは、基礎となるモデル(CLIPなど)と、既にスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルとの直感的なシナジーを実証しました。特に、SBIRモデルのスケッチと写真のブランチで別々のプロンプトを行った後、CLIPの汎化能力を使用して高度に一般化されたスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真の埋め込みと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計します。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、教師あり(SOD)およびウィークリー教師あり(WSOD)オブジェクト検出器をゼロショット設定で上回ります。

まとめ

オブジェクト検出を改善するために、研究者たちは、スケッチで人間の表現力を積極的に促進しています。提案されたスケッチに対応したオブジェクト識別フレームワークは、スケッチで何を伝えようとしているかを理解できるインスタンスレベルとパーツレベルのオブジェクト検出器です。そのため、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチに注意を払った検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案します。また、ゼロショットファッションで動作するように指定されています。一方、SBIRは、単一のもののスケッチと写真のペアを使用して教育されます。オブジェクトとイメージのレベルの間のギャップを埋めるために、耐破壊性を高め、語彙外への一般化を増加させるデータ拡張アプローチを使用します。結果として得られるフレームワークは、ゼロショット設定で教師ありおよびウィークリー教師ありオブジェクト検出器を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

中途の旅行 vs 安定した拡散:AI画像生成器の戦い

「Midjourney vs Stable Diffusion、あなたにとって最適なのはどちら?両方のAI画像生成機の強みと弱みを探ってみましょう」

機械学習

「機械学習モデルを展開する」とはどういう意味ですか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています...

AI研究

「読むべき創造的エージェント研究論文」

見逃せないエキサイティングな分野に関する研究論文

AI研究

メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「...

機械学習

『Stack OverflowがOverflowをリリース:開発者コミュニティとAIの統合』

Stack Overflow(スタック・オーバーフロー)は、問題解決と知識を求める開発者のための名高いプラットフォームであり、新し...

AIニュース

SSDを使用したリアルタイム物体検出:シングルショットマルチボックス検出器

イントロダクション リアルタイムオブジェクト検出では、従来のパラダイムは通常、バウンディングボックスの提案、ピクセルま...