「5分でイメージ検索」

「イメージ検索を5分で!」

先端的な画像検索、簡単かつ迅速に

“Weighing Vectors” by the author using MidJourney. All images by the author unless otherwise specified.

この記事では、軽量の事前トレーニング済みモデルを使用して、テキストから画像を検索する(テキストを使用して画像を検索することができる)およびイメージからイメージを検索する(参照イメージに基づいて画像を検索することができる)方法を実装します。画像とテキストの類似性を計算するために使用するモデルは、Contrastive Language Image Pre-Training(CLIP)に触発されたものであり、その詳細については他の記事で説明しています。

The results when searching for images with the text “a rainbow by the water”

この記事はどのような人に役立つのか? 画像検索の実装をしたがっている開発者、実用的な応用に興味を持つデータサイエンティスト、実践的なAIについて学びたい非技術の読者などです。

この記事の進行度はどのくらいですか? この記事では、できるだけ迅速かつ簡単に画像検索の実装方法を解説します。

前提条件: 基本的なコーディング経験が必要です。

私たちがやっていること、そしてやり方

この記事は、私の「Contrastive Language-Image Pre-Training」に関する記事の付属記事です。理論についてより詳しく理解したい場合は、ぜひ確認してください:

CLIP、直感的かつ詳細に説明する

一般的な機械学習タスクのための強力な画像と言語の表現を作成する。

towardsdatascience.com

CLIPモデルは、任意のキャプションが任意の画像と一致するかどうかを予測するためにトレーニングされます。この一般的な機能を使用して、画像検索システムを作成します。具体的には、CLIPからの画像およびテキストエンコーダを使用して入力を要約したベクトル、埋め込みと呼ばれるものに圧縮します。

The job of an encoder is to summarize an input into a meaningful representation, called an embedding. Image from my article on CLIP.

CLIPのアイデア全体は、似たようなテキストと画像は似たようなベクトル埋め込みを持つというものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more