サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました

Sally大学 researchers developed a sketch-based object detection tool that revolutionizes image recognition in machine learning.

旧石器時代から、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストロークフィッティングなどのより新しいアプリケーションまで、スケッチの使用方法を理解するために大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその細かいグレインの対応(FGSBIR)だけが、スケッチの表現力の潜在能力を調査しています。最近のシステムは、すでに商業的に適応するために十分に成熟しており、スケッチの表現力を開発することがどれだけ重要かを示す素晴らしい証拠です。

スケッチは非常に示唆的であり、自動的に微妙で個人的な視覚的手がかりをキャプチャするためです。しかし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの示唆的な力を使用して、ビジョンの最も基本的なタスクであるシーン内のオブジェクトの検出にシステムをトレーニングするようになっています。最終的な製品は、スケッチに基づくオブジェクトの検出フレームワークであり、つまり、群れの中の特定の「シマウマ」(たとえば、草を食べているシマウマ)にピンポイントでアプローチできるようになります。さらに、研究者たちは、モデルが次のようなことなしに成功することを課しています。

  • (ゼロショット)テストに何らかの結果を期待せずに進むこと。
  • (完全に教師付きのように)追加の境界ボックスやクラスラベルを必要としないこと。

研究者たちは、スケッチに基づく検出器も、ゼロショットの方法で動作することを要求しており、システムの新規性を高めています。以下のセクションで、彼らはオブジェクト検出を閉じたセットからオープンボキャブ構成に切り替える方法を詳述しています。たとえば、オブジェクトディテクターは、分類ヘッドの代わりにプロトタイプ学習を使用し、エンコードされたクエリスケッチ機能をサポートセットとして使用します。モデルは、ウィークリー教師ありオブジェクト検出(WSOD)環境で、すべての考えられるカテゴリまたはインスタンスのプロトタイプに対する多カテゴリ交差エントロピー損失を使用してトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。これにより、SBIRオブジェクト検出器のトレーニングでは、オブジェクトレベルと画像レベルの特性の間に橋渡しが必要です。

研究者たちの貢献は次のとおりです。

  • 人間のスケッチの表現力を養うことによるオブジェクト検出の改善。
  • スケッチに基づいたオブジェクト識別フレームワークの構築。スケッチを理解しているものであり、カテゴリレベル、インスタンスレベル、パーツレベルの検出が可能です。
  • クリップとSBIRを組み合わせた新しいプロンプト学習構成によるスケッチに注意を払った検出器の作成。バウンディングボックスの注釈やクラスラベルなしでゼロショットファッションで機能します。
  • 結果は、ゼロショット設定でSODおよびWSODよりも優れています。

研究者たちは、基礎となるモデル(CLIPなど)と、既にスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルとの直感的なシナジーを実証しました。特に、SBIRモデルのスケッチと写真のブランチで別々のプロンプトを行った後、CLIPの汎化能力を使用して高度に一般化されたスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真の埋め込みと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計します。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、教師あり(SOD)およびウィークリー教師あり(WSOD)オブジェクト検出器をゼロショット設定で上回ります。

まとめ

オブジェクト検出を改善するために、研究者たちは、スケッチで人間の表現力を積極的に促進しています。提案されたスケッチに対応したオブジェクト識別フレームワークは、スケッチで何を伝えようとしているかを理解できるインスタンスレベルとパーツレベルのオブジェクト検出器です。そのため、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチに注意を払った検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案します。また、ゼロショットファッションで動作するように指定されています。一方、SBIRは、単一のもののスケッチと写真のペアを使用して教育されます。オブジェクトとイメージのレベルの間のギャップを埋めるために、耐破壊性を高め、語彙外への一般化を増加させるデータ拡張アプローチを使用します。結果として得られるフレームワークは、ゼロショット設定で教師ありおよびウィークリー教師ありオブジェクト検出器を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「科学者たちが歴史的なコードを解読し、失われた秘密を明らかにする方法」

「DECRYPTプロジェクトは、言語学者とコンピュータ科学者の共同作業で、歴史的な暗号を解読するプロセスを自動化することを目...

機械学習

「Appleが『AppleGPT』チャットボットを使った生成AI競争に参入」

テック大手のAppleは、大いに期待されているAI搭載チャットボット「AppleGPT」という仮の名前で進んでいます。この革新的なプ...

AIテクノロジー

「人工知能(AI)企業に投資するトップのベンチャーキャピタル(VC)企業」

AI(人工知能)企業に投資しているベンチャーキャピタリストを見てみましょう。 かつてロボットのアイデアは少し不安定でした...

データサイエンス

現代の生成的AIアプリケーションにおけるベクトルデータベースの役割

大規模な生成AIアプリケーションがうまく機能するためには、多くのデータを処理できる良いシステムが必要ですそのような重要...

AIニュース

「OpenAI、マイクロソフトの支援を受けてGPT-5開発に向けて準備を進める」

次世代AI分野を指し示す大胆な動きとして、OpenAIのCEOサム・オルトマンは人気の高いChatGPTの後継機であるGPT-5の開発を示唆...

機械学習

AWS Inferentiaでのディープラーニングトレーニング

この投稿のトピックは、AWSの自社開発AIチップ、AWS Inferentia、より具体的には第2世代のAWS Inferentia2ですこれは、昨年の...