がん検出の革命:サリー大学が機械学習における画像ベースのオブジェクト検出ツールを発表し、ゲームチェンジとなる

Sally University announces a game-changing image-based object detection tool in machine learning for cancer detection.

先史時代以来、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストローク適合などのより新しいアプリケーションに至るまで、スケッチの使用方法について大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその微細な対応(FGSBIR)のみが、スケッチの表現力の可能性を調査しています。最近のシステムは、すでに商業展開に向けて十分に成熟しており、スケッチ表現力の開発がどのように重要な影響を与えるかについて素晴らしい証拠です。

スケッチは、微妙で個人的な視覚的な手がかりを自動的にキャプチャするため、非常に示唆的です。ただし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの表現力を最も基本的なビジョンのタスクであるシーン内のオブジェクトの検出に使用するようシステムをトレーニングするのに初めて取り組んでいます。最終的な製品は、スケッチに基づいてオブジェクトを検出するためのフレームワークであり、これにより、群れの中の特定の「シマウマ」(たとえば草を食べているもの)に絞り込むことができます。さらに、研究者たちは、モデルが以下のようなものであっても成功するように規定しています。

  • テストに入る前にどのような結果を期待するかについてのアイデアがない(ゼロショット)。
  • 余分な境界ボックスやクラスラベルが必要ない(完全に監視されたものと同じように)。

研究者たちは、スケッチベースの検出器もまた、ゼロショットで動作するようにして、システムの新規性を高めています。続くセクションでは、彼らはオブジェクト検出をクローズドセットからオープンボキャブ構成に切り替える方法について詳しく説明し、たとえば、分類ヘッドの代わりにプロトタイプ学習を使用することにより、エンコードされたクエリスケッチ機能がサポートセットとして使用されます。モデルは、弱く監視されたオブジェクト検出(WSOD)環境のあらゆる考えられるカテゴリまたはインスタンスのプロトタイプ全体にわたるマルチカテゴリクロスエントロピー損失でトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。このため、SBIRオブジェクト検出トレーニングには、オブジェクトレベルと画像レベルの特性の橋渡しを必要とします。

研究者たちの貢献は次の通りです。

  • スケッチングの表現力を育成して、オブジェクト検出に人間の表現力を積極的に促進する。
  • スケッチをベースにしたオブジェクト識別フレームワークで、何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器。
  • 従来のカテゴリレベルおよびインスタンスおよびパートレベルの検出が可能なオブジェクト検出器。
  • CLIPとSBIRを組み合わせた新しいプロンプト学習構成により、バウンディングボックス注釈やクラスラベルなしで機能するスケッチ感知検出器を生成する。
  • その結果は、ゼロショット設定でSODおよびWSODを上回る。

研究者たちは、既に優雅に解決できるスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルと基礎モデル(CLIPなど)の直感的なシナジーを示しました。特に、彼らはまず、SBIRモデルのスケッチと写真の枝にそれぞれ別個のプロンプトを実行し、次にCLIPの一般化能力を使用して高度に汎化可能なスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真のものと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計しています。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、監視された(SOD)および弱く監視された(WSOD)オブジェクト検出器をゼロショット設定で上回ります。

まとめ

研究者たちは、オブジェクト検出を改善するために、スケッチングにおける人間の表現力を積極的に促進しています。提案されたスケッチを有効にしたオブジェクト識別フレームワークは、スケッチで何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器です。したがって、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチ感知検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案しました。検出器は、ゼロショット設定でも動作するように指定されています。一方、SBIRは、個々のオブジェクトのスケッチと写真のペアで教えられます。彼らは、オブジェクトと画像のレベルのギャップを埋めるために、汚染に対する抵抗力を高め、語彙外への一般化を高めるデータ拡張手法を使用します。その結果得られるフレームワークは、ゼロショット設定で監視されたおよび弱く監視されたオブジェクト検出器を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「OpenAIは、パーソナライズされたAIインタラクションのためのChatGPTのカスタムインストラクションを開始」

OpenAIは、AI言語モデルChatGPTのユーザーコントロールを向上させるために、新しい機能「カスタムインストラクション」を導入...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

AI研究

「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸...

人工知能

AIの創造的かつ変革的な可能性

ジェームズ・マニカ氏は、AIと創造性についてカンヌライオンズフェスティバルで講演しました彼の発言の抜粋を読んでください

機械学習

「生成AIの風景を探索する」

ジェネレーティブAIは、特にニューラルネットワークを用いて、与えられたデータセット内のパターンを解読するために、さまざ...

AIテクノロジー

世界のトップ10の生成AI企業

イントロダクション 人工知能(AI)は、ビジネスの働き方を変革する力を持つ強力なテクノロジーです。AIの素晴らしい側面の一...