サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました
Sally大学 researchers developed a sketch-based object detection tool that revolutionizes image recognition in machine learning.
旧石器時代から、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストロークフィッティングなどのより新しいアプリケーションまで、スケッチの使用方法を理解するために大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその細かいグレインの対応(FGSBIR)だけが、スケッチの表現力の潜在能力を調査しています。最近のシステムは、すでに商業的に適応するために十分に成熟しており、スケッチの表現力を開発することがどれだけ重要かを示す素晴らしい証拠です。
スケッチは非常に示唆的であり、自動的に微妙で個人的な視覚的手がかりをキャプチャするためです。しかし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの示唆的な力を使用して、ビジョンの最も基本的なタスクであるシーン内のオブジェクトの検出にシステムをトレーニングするようになっています。最終的な製品は、スケッチに基づくオブジェクトの検出フレームワークであり、つまり、群れの中の特定の「シマウマ」(たとえば、草を食べているシマウマ)にピンポイントでアプローチできるようになります。さらに、研究者たちは、モデルが次のようなことなしに成功することを課しています。
- (ゼロショット)テストに何らかの結果を期待せずに進むこと。
- (完全に教師付きのように)追加の境界ボックスやクラスラベルを必要としないこと。
研究者たちは、スケッチに基づく検出器も、ゼロショットの方法で動作することを要求しており、システムの新規性を高めています。以下のセクションで、彼らはオブジェクト検出を閉じたセットからオープンボキャブ構成に切り替える方法を詳述しています。たとえば、オブジェクトディテクターは、分類ヘッドの代わりにプロトタイプ学習を使用し、エンコードされたクエリスケッチ機能をサポートセットとして使用します。モデルは、ウィークリー教師ありオブジェクト検出(WSOD)環境で、すべての考えられるカテゴリまたはインスタンスのプロトタイプに対する多カテゴリ交差エントロピー損失を使用してトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。これにより、SBIRオブジェクト検出器のトレーニングでは、オブジェクトレベルと画像レベルの特性の間に橋渡しが必要です。
- LinkedInとUCバークレーの研究者らは、AIによって生成されたプロフィール写真を検出する新しい方法を提案しています
- 私の博士号入学への道 – 人工知能
- Google研究者がAudioPaLMを導入:音声技術における革新者 – 聞き、話し、そして前例のない精度で翻訳する新しい大規模言語モデル
研究者たちの貢献は次のとおりです。
- 人間のスケッチの表現力を養うことによるオブジェクト検出の改善。
- スケッチに基づいたオブジェクト識別フレームワークの構築。スケッチを理解しているものであり、カテゴリレベル、インスタンスレベル、パーツレベルの検出が可能です。
- クリップとSBIRを組み合わせた新しいプロンプト学習構成によるスケッチに注意を払った検出器の作成。バウンディングボックスの注釈やクラスラベルなしでゼロショットファッションで機能します。
- 結果は、ゼロショット設定でSODおよびWSODよりも優れています。
研究者たちは、基礎となるモデル(CLIPなど)と、既にスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルとの直感的なシナジーを実証しました。特に、SBIRモデルのスケッチと写真のブランチで別々のプロンプトを行った後、CLIPの汎化能力を使用して高度に一般化されたスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真の埋め込みと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計します。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、教師あり(SOD)およびウィークリー教師あり(WSOD)オブジェクト検出器をゼロショット設定で上回ります。
まとめ
オブジェクト検出を改善するために、研究者たちは、スケッチで人間の表現力を積極的に促進しています。提案されたスケッチに対応したオブジェクト識別フレームワークは、スケッチで何を伝えようとしているかを理解できるインスタンスレベルとパーツレベルのオブジェクト検出器です。そのため、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチに注意を払った検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案します。また、ゼロショットファッションで動作するように指定されています。一方、SBIRは、単一のもののスケッチと写真のペアを使用して教育されます。オブジェクトとイメージのレベルの間のギャップを埋めるために、耐破壊性を高め、語彙外への一般化を増加させるデータ拡張アプローチを使用します。結果として得られるフレームワークは、ゼロショット設定で教師ありおよびウィークリー教師ありオブジェクト検出器を上回ります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 計算機の進歩により、研究者はより高い信頼性で気候をモデル化することができるようになります
- ロボットの犬がMJスタイルでムーンウォークをする:このAI研究は、コードで表現された報酬を、LLMと最適化ベースのモーションコントローラーの間の柔軟なインターフェースとして使用することを提案しています
- メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました
- ChatGPTの哲学コース:このAI研究は、対話エージェントのLLMの振る舞いを探究します
- Google Researchにおける責任あるAI 社会的善のためのAI
- DeepMindの研究者たちは、任意のポイントを追跡するための新しいAIモデルであるTAPIRをオープンソース化しましたこのモデルは、ビデオシーケンス内のクエリポイントを効果的に追跡します
- バイデン政権は、チップ研究の取り組みにGoogleの議長を起用します