サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました

Sally大学 researchers developed a sketch-based object detection tool that revolutionizes image recognition in machine learning.

旧石器時代から、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストロークフィッティングなどのより新しいアプリケーションまで、スケッチの使用方法を理解するために大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその細かいグレインの対応(FGSBIR)だけが、スケッチの表現力の潜在能力を調査しています。最近のシステムは、すでに商業的に適応するために十分に成熟しており、スケッチの表現力を開発することがどれだけ重要かを示す素晴らしい証拠です。

スケッチは非常に示唆的であり、自動的に微妙で個人的な視覚的手がかりをキャプチャするためです。しかし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの示唆的な力を使用して、ビジョンの最も基本的なタスクであるシーン内のオブジェクトの検出にシステムをトレーニングするようになっています。最終的な製品は、スケッチに基づくオブジェクトの検出フレームワークであり、つまり、群れの中の特定の「シマウマ」(たとえば、草を食べているシマウマ)にピンポイントでアプローチできるようになります。さらに、研究者たちは、モデルが次のようなことなしに成功することを課しています。

  • (ゼロショット)テストに何らかの結果を期待せずに進むこと。
  • (完全に教師付きのように)追加の境界ボックスやクラスラベルを必要としないこと。

研究者たちは、スケッチに基づく検出器も、ゼロショットの方法で動作することを要求しており、システムの新規性を高めています。以下のセクションで、彼らはオブジェクト検出を閉じたセットからオープンボキャブ構成に切り替える方法を詳述しています。たとえば、オブジェクトディテクターは、分類ヘッドの代わりにプロトタイプ学習を使用し、エンコードされたクエリスケッチ機能をサポートセットとして使用します。モデルは、ウィークリー教師ありオブジェクト検出(WSOD)環境で、すべての考えられるカテゴリまたはインスタンスのプロトタイプに対する多カテゴリ交差エントロピー損失を使用してトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。これにより、SBIRオブジェクト検出器のトレーニングでは、オブジェクトレベルと画像レベルの特性の間に橋渡しが必要です。

研究者たちの貢献は次のとおりです。

  • 人間のスケッチの表現力を養うことによるオブジェクト検出の改善。
  • スケッチに基づいたオブジェクト識別フレームワークの構築。スケッチを理解しているものであり、カテゴリレベル、インスタンスレベル、パーツレベルの検出が可能です。
  • クリップとSBIRを組み合わせた新しいプロンプト学習構成によるスケッチに注意を払った検出器の作成。バウンディングボックスの注釈やクラスラベルなしでゼロショットファッションで機能します。
  • 結果は、ゼロショット設定でSODおよびWSODよりも優れています。

研究者たちは、基礎となるモデル(CLIPなど)と、既にスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルとの直感的なシナジーを実証しました。特に、SBIRモデルのスケッチと写真のブランチで別々のプロンプトを行った後、CLIPの汎化能力を使用して高度に一般化されたスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真の埋め込みと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計します。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、教師あり(SOD)およびウィークリー教師あり(WSOD)オブジェクト検出器をゼロショット設定で上回ります。

まとめ

オブジェクト検出を改善するために、研究者たちは、スケッチで人間の表現力を積極的に促進しています。提案されたスケッチに対応したオブジェクト識別フレームワークは、スケッチで何を伝えようとしているかを理解できるインスタンスレベルとパーツレベルのオブジェクト検出器です。そのため、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチに注意を払った検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案します。また、ゼロショットファッションで動作するように指定されています。一方、SBIRは、単一のもののスケッチと写真のペアを使用して教育されます。オブジェクトとイメージのレベルの間のギャップを埋めるために、耐破壊性を高め、語彙外への一般化を増加させるデータ拡張アプローチを使用します。結果として得られるフレームワークは、ゼロショット設定で教師ありおよびウィークリー教師ありオブジェクト検出器を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

xAIはPromptIDEを発表しました:Promptエンジニアリングと人工知能AIの透明性における新たなフロンティア

人工知能開発における画期的な一手として、xAIはPromptIDEを公開しました。PromptIDEは、プロンプトエンジニアリングと機械学...

機械学習

「GPT-4の隠れた回帰の時間経過の定量化」

「時間が経つにつれて、GPT-4は複数のデータソースにおける会話型の質問応答において後退しましたが、Wikipediaの記事に関す...

AI研究

UCバークレーの研究者たちは、FastRLAPを提案していますこれは、深層強化学習(Deep RL)と自律練習を通じて高速運転を学ぶためのシステムです

カリフォルニア大学バークレー校の研究者たちは、FastrLapというシステムを開発しました。このシステムは機械学習を使用して...

AI研究

新しい研究論文が、化学の論文がChatbot ChatGPTを使用して書かれた時に簡単に見分けることができる機械学習ツールを紹介しています

AIの進歩が支配的な時代において、特に科学論文における人間とAIによるコンテンツの区別はますます重要になっています。この...

データサイエンス

コンピュータビジョンシステムは、ビデオから筋肉の活動を推定できるのでしょうか?筋肉の動き(MIA)に出会う:筋肉の活動を人間の動き表現に組み込むための新しいデータセット

近年、人工知能の分野が話題となっています。自然言語処理と自然言語理解に基づく人間を模倣する大規模言語モデルであるGPT 3...

機械学習

機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索

アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生...