「Human Sketchesが物体検出にどのような役割を果たすことができるのか?スケッチベースの画像検索に関する洞察」

Human Sketchesの役割とスケッチベースの画像検索に関する洞察

先史時代から、人類はアイデアを伝えたり記録したりするためにスケッチを使用してきました。言語の存在にもかかわらず、スケッチの表現力は比類のないものです。アイデアを紙とペン(またはZoom Whiteboard)でスケッチする必要性を感じる瞬間を考えてみてください。

過去10年間、スケッチに関する研究は著しい成長を遂げています。従来の分類や合成などの伝統的なタスクだけでなく、ビジュアル抽象モデリング、スタイル変換、連続ストロークの適合など、よりスケッチに特化したトピックにもさまざまな研究が行われています。また、スケッチを写真分類器に変換するなど、楽しい実用的な応用もあります。

しかし、スケッチの表現力の探求は主にスケッチベースの画像検索(SBIR)、特に細粒度のバリアント(FGSBIR)に焦点を当ててきました。たとえば、コレクション内で特定の犬の写真を探している場合、頭の中でその犬の絵をスケッチすることで、それをより速く見つけることができます。

驚くべき進歩がなされ、最近のシステムは商業利用に適した成熟度を達成しました。

この記事で報告された研究論文では、著者たちは人間のスケッチの潜在能力を活用して、基本的なビジョンタスク、特に物体検出を向上させることを目指しています。提案手法の概要は以下の図に示されています。

https://arxiv.org/abs/2303.15149

目標は、スケッチの内容に基づいてオブジェクトを検出するスケッチ対応の物体検出フレームワークを開発し、ユーザーが視覚的に自己表現できるようにすることです。たとえば、人が「草を食べるシマウマ」といったシーンをスケッチすると、提案されたフレームワークはシマウマの中からその特定のシマウマをインスタンスに基づいた検出を利用して検出することができます。さらに、ユーザーは物体の部分に特定をすることができるようになり、部分に基づいた検出が可能になります。したがって、「シマウマ」の「頭」にだけ焦点を当てたい場合、その望ましい結果を得るためにシマウマの頭をスケッチすることができます。

スクラッチからスケッチ対応の物体検出モデルを開発する代わりに、研究者たちはCLIPなどの基盤モデルとすでに利用可能なSBIRモデルのシームレスな統合を実証し、問題をエレガントに解決しています。このアプローチは、モデルの汎化性を活用するとともに、スケッチと写真の間のギャップを埋めるためにSBIRを利用します。

これを実現するために、著者たちはCLIPを適応させ、スケッチと写真のエンコーダ(共有SBIRモデル内のブランチ)を作成しました。各モダリティに対して独立したプロンプトベクトルを個別にトレーニングしています。トレーニング中、これらのプロンプトベクトルは、CLIPのViTバックボーンの最初のトランスフォーマーレイヤーの入力シーケンスに追加されますが、残りのパラメータは凍結されます。この統合により、学習されたスケッチと写真の分布にモデルの汎化性を導入します。

クロスカテゴリのFG-SBIRのリトリーバルタスクに特化したいくつかの結果が以下に報告されています。

https://arxiv.org/abs/2303.15149

これはスケッチベースの画像検索に関する新しいAI技術の概要でした。この研究に興味があり、さらに詳細を知りたい場合は、以下のリンクをクリックして詳細情報をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

お客様との関係を革新する:チャットとReact.jsとのCRMのシナジーを探る

このブログ記事では、CRM、リアルタイムチャットアプリケーション、およびReact.jsライブラリの相互関係について探求します

機械学習

「アフリカと中東で5人の生成型AIイノベーターに会おう」

起業家たちは、西アフリカの西海岸からアラビア砂漠の東端まで、生成的AIを育てています。 Gen AIは、コーヒ・ゲンフィとニー...

AIテクノロジー

「最も価値のあるコードは、書くべきでないコードです」

伝統的なプログラミング言語のコーディングスキルは、AIが進化するにつれてますます重要ではなくなります私はコーディングな...

機械学習

「インドにおけるAI規制のためのPMモディのビジョン:B20サミット2023」

2023年、B20サミットインドがデリーで終了するにつれ、ナレンドラ・モディ首相の言葉の響きは続きました。ビジネスリーダーた...

AIニュース

「GPT-4と説明可能なAI(XAI)によるAIの未来の解明」

はじめに 常に進化し続ける人工知能(AI)の世界で、GPT-4は人間のようなテキスト生成の驚異です。それはまるで自分の言語を...

人工知能

「ChatGPTを利用する5人のミリオネア」

「以下は、地球上で最も成功した人々がChatGPTをどのように活用しているかの方法です」