がん検出の革命:サリー大学が機械学習における画像ベースのオブジェクト検出ツールを発表し、ゲームチェンジとなる

Sally University announces a game-changing image-based object detection tool in machine learning for cancer detection.

先史時代以来、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストローク適合などのより新しいアプリケーションに至るまで、スケッチの使用方法について大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその微細な対応(FGSBIR)のみが、スケッチの表現力の可能性を調査しています。最近のシステムは、すでに商業展開に向けて十分に成熟しており、スケッチ表現力の開発がどのように重要な影響を与えるかについて素晴らしい証拠です。

スケッチは、微妙で個人的な視覚的な手がかりを自動的にキャプチャするため、非常に示唆的です。ただし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの表現力を最も基本的なビジョンのタスクであるシーン内のオブジェクトの検出に使用するようシステムをトレーニングするのに初めて取り組んでいます。最終的な製品は、スケッチに基づいてオブジェクトを検出するためのフレームワークであり、これにより、群れの中の特定の「シマウマ」(たとえば草を食べているもの)に絞り込むことができます。さらに、研究者たちは、モデルが以下のようなものであっても成功するように規定しています。

  • テストに入る前にどのような結果を期待するかについてのアイデアがない(ゼロショット)。
  • 余分な境界ボックスやクラスラベルが必要ない(完全に監視されたものと同じように)。

研究者たちは、スケッチベースの検出器もまた、ゼロショットで動作するようにして、システムの新規性を高めています。続くセクションでは、彼らはオブジェクト検出をクローズドセットからオープンボキャブ構成に切り替える方法について詳しく説明し、たとえば、分類ヘッドの代わりにプロトタイプ学習を使用することにより、エンコードされたクエリスケッチ機能がサポートセットとして使用されます。モデルは、弱く監視されたオブジェクト検出(WSOD)環境のあらゆる考えられるカテゴリまたはインスタンスのプロトタイプ全体にわたるマルチカテゴリクロスエントロピー損失でトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。このため、SBIRオブジェクト検出トレーニングには、オブジェクトレベルと画像レベルの特性の橋渡しを必要とします。

研究者たちの貢献は次の通りです。

  • スケッチングの表現力を育成して、オブジェクト検出に人間の表現力を積極的に促進する。
  • スケッチをベースにしたオブジェクト識別フレームワークで、何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器。
  • 従来のカテゴリレベルおよびインスタンスおよびパートレベルの検出が可能なオブジェクト検出器。
  • CLIPとSBIRを組み合わせた新しいプロンプト学習構成により、バウンディングボックス注釈やクラスラベルなしで機能するスケッチ感知検出器を生成する。
  • その結果は、ゼロショット設定でSODおよびWSODを上回る。

研究者たちは、既に優雅に解決できるスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルと基礎モデル(CLIPなど)の直感的なシナジーを示しました。特に、彼らはまず、SBIRモデルのスケッチと写真の枝にそれぞれ別個のプロンプトを実行し、次にCLIPの一般化能力を使用して高度に汎化可能なスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真のものと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計しています。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、監視された(SOD)および弱く監視された(WSOD)オブジェクト検出器をゼロショット設定で上回ります。

まとめ

研究者たちは、オブジェクト検出を改善するために、スケッチングにおける人間の表現力を積極的に促進しています。提案されたスケッチを有効にしたオブジェクト識別フレームワークは、スケッチで何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器です。したがって、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチ感知検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案しました。検出器は、ゼロショット設定でも動作するように指定されています。一方、SBIRは、個々のオブジェクトのスケッチと写真のペアで教えられます。彼らは、オブジェクトと画像のレベルのギャップを埋めるために、汚染に対する抵抗力を高め、語彙外への一般化を高めるデータ拡張手法を使用します。その結果得られるフレームワークは、ゼロショット設定で監視されたおよび弱く監視されたオブジェクト検出器を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「5つ星アプリを構築する:AIと自動化を利用したモバイルテストの向上」

ソフトウェア開発チームは、高品質なモバイルアプリ体験を提供するために、強力で低コストのツールが必要ですAIと自動化は解...

データサイエンス

「2023年の小売り向けデータストリーミングの状況」

ウォルマート、アルバートソンズ、オットー、AOなどからの小売業におけるデータストリーミングの状況には、オムニチャネル、...

AIニュース

創造性とAIに関するレフィク・アナドールとの対話

Mira Lane は、先駆的なアーティスト Refik Anadol と共に、AIが創造力を強化している方法を探求しています

AIニュース

「類推的な & ステップバック型プロンプティング:Google DeepMindの最新の進歩に潜入する」

「Google DeepMindの最新研究による2つの新しいプロンプト工学技術を探求し、アナロジカルプロンプティングとステップバック...

データサイエンス

GenAIにとっての重要なデータファブリックとしてのApache Kafka

ジェンAI、チャットボット、およびミッションクリティカルな展開での大規模言語モデルのリアルタイム機械学習インフラとして...

データサイエンス

AIの導入障壁:主要な課題と克服方法

人工知能(AI)がビジネスを革新し、効率を高め、生産性を向上させる方法を発見してくださいAI導入の障壁について議論します