GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

GoogleのAI研究者がPic2Wordの新しいアプローチを紹介

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保するために、このプロセスに取り組んでいます。研究者は、テキスト埋め込みを介して画像を表現する方法を見つけました。しかし、テキストを介した画像のフォーマットは、重大な損失と低い精度があるため、課題となっています。この画像表現は、コンピュータビジョンと畳み込みニューラルネットワークの広範なカテゴリに属しています。研究者たちは、最小の損失を持つ合成画像検索(CIR)システムを開発しましたが、この方法の問題は、モデルのトレーニングに大規模なデータセットが必要であることです。

この問題に対する解決策として、Google AIの研究者はPic2Wordという手法を導入しました。これは、xからyへの関数のマッピングと同じです。したがって、画像は単語にマッピングされ、ゼロショットの最小損失が保証されます。この手法の利点は、ラベル付きデータを必要としないことです。ラベルのない画像やキャプション付き画像にも適用できますが、これらはラベル付きデータセットよりも容易に収集できます。研究者たちは、これを畳み込みニューラルネットワークに非常に類似していると考えています。トレーニングセットには「クエリと説明」が含まれます。この情報は検索モデルに渡され、ニューラルネットワークと比較して隠れ層として機能します。この情報を隠れ層を通じて渡すことで、ベースライン画像と出力画像が得られます。この場合、入力と出力画像の間には最小の損失があります。

研究者が提案したコントラスティブ画像事前学習モデルは、テキストと画像の埋め込みを生成する機械学習モデルです。画像はビジュアルエンコーダに渡され、ビジュアル埋め込み空間を生成します。これはさらにテキストエンコーダに処理され、テキストの埋め込みを生成します。これらのビジュアル埋め込みとテキスト埋め込みはさらに処理され、このモデルを介して最小の損失が得られます。この損失はコントラスティブ損失と呼ばれます。テキスト埋め込みは画像の検索に使用され、検索された画像が得られます。画像の出力は異なる画像ですが、内容は元と同じです。したがって、この方法では最小の損失が発生します。ファッション属性合成モデルは、入力画像と同じ画像が出力される機械学習モデルです。このモデルで得られる色も、入力と同じです。

これらの手法は、画像を単語トークンにマッピングするのに非常に役立ちます。研究者は、画像をテキストトークンとして扱うトレーニング済みのCLIPモデルを使用することを提案しており、言語エンコーダが画像特徴とテキストの説明を柔軟に組み合わせることができます。研究者は、Pic2Wordをさまざまな多様なタスクで包括的な分析を行っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIバイアス:課題と解決策

人工知能のバイアスはどこから来るのか一度それを見つけたら、どのようにしてそれを減らしたり、排除したりすることができる...

機械学習

「人工知能の世界を探索する:初心者ガイド」

この記事では、人工知能の新興で興奮するような分野について、さまざまなシステムの種類、リスク、利点について説明します

機械学習

「DreamIdentityに会ってください:テキストから画像モデルのための編集可能性を保ちつつ、各顔のアイデンティティのための最適化フリーAIメソッド」

最近、拡散ベースの大規模テキストから画像(T2I)モデルのおかげで、視覚素材の作成の学問は変化しています。これらのT2Iモ...

AI研究

AIを使用してAI画像の改ざんを防ぐ

「PhotoGuard」は、MIT CSAILの研究者によって開発されたもので、不正な画像操作を防ぎ、高度な生成モデルの時代において信頼...