GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

GoogleのAI研究者がPic2Wordの新しいアプローチを紹介

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保するために、このプロセスに取り組んでいます。研究者は、テキスト埋め込みを介して画像を表現する方法を見つけました。しかし、テキストを介した画像のフォーマットは、重大な損失と低い精度があるため、課題となっています。この画像表現は、コンピュータビジョンと畳み込みニューラルネットワークの広範なカテゴリに属しています。研究者たちは、最小の損失を持つ合成画像検索(CIR)システムを開発しましたが、この方法の問題は、モデルのトレーニングに大規模なデータセットが必要であることです。

この問題に対する解決策として、Google AIの研究者はPic2Wordという手法を導入しました。これは、xからyへの関数のマッピングと同じです。したがって、画像は単語にマッピングされ、ゼロショットの最小損失が保証されます。この手法の利点は、ラベル付きデータを必要としないことです。ラベルのない画像やキャプション付き画像にも適用できますが、これらはラベル付きデータセットよりも容易に収集できます。研究者たちは、これを畳み込みニューラルネットワークに非常に類似していると考えています。トレーニングセットには「クエリと説明」が含まれます。この情報は検索モデルに渡され、ニューラルネットワークと比較して隠れ層として機能します。この情報を隠れ層を通じて渡すことで、ベースライン画像と出力画像が得られます。この場合、入力と出力画像の間には最小の損失があります。

研究者が提案したコントラスティブ画像事前学習モデルは、テキストと画像の埋め込みを生成する機械学習モデルです。画像はビジュアルエンコーダに渡され、ビジュアル埋め込み空間を生成します。これはさらにテキストエンコーダに処理され、テキストの埋め込みを生成します。これらのビジュアル埋め込みとテキスト埋め込みはさらに処理され、このモデルを介して最小の損失が得られます。この損失はコントラスティブ損失と呼ばれます。テキスト埋め込みは画像の検索に使用され、検索された画像が得られます。画像の出力は異なる画像ですが、内容は元と同じです。したがって、この方法では最小の損失が発生します。ファッション属性合成モデルは、入力画像と同じ画像が出力される機械学習モデルです。このモデルで得られる色も、入力と同じです。

これらの手法は、画像を単語トークンにマッピングするのに非常に役立ちます。研究者は、画像をテキストトークンとして扱うトレーニング済みのCLIPモデルを使用することを提案しており、言語エンコーダが画像特徴とテキストの説明を柔軟に組み合わせることができます。研究者は、Pic2Wordをさまざまな多様なタスクで包括的な分析を行っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「50以上の最新の最先端人工知能(AI)ツール(2023年11月)」

AIツールは急速に開発が進んでおり、定期的に新しいツールが導入されています。以下にいくつかのAIツールを紹介します。これ...

機械学習

NVIDIA NeMoを使ったスタートアップが生成AIの成功ストーリーをスタートさせました

機械学習は、ワシーム・アルシークが大学の教科書を読み進めるのを助けました。現在、彼は生成型AIを活用し、数百の企業向け...

AIニュース

ツール・ド・フランスは、ChatGPTとデジタルツインテクノロジーを導入しました

日本を拠点とする情報技術およびサービス企業NTTは、今年のツール・ド・フランスにChatGPTと「世界最大のコネクテッドスタジ...

機械学習

ML.NETのカタログとユースケースを探検する

この機械学習初心者向けの概要は、ML.NETのカタログの概念に焦点を当てていますML.NETは、.NET開発者向けのクロスプラットフ...

AIニュース

「アルゴリズムを使用して数千件の患者請求を不適切に拒否した」として、シグナが告発されました

連邦集団訴訟によれば、健康保険会社のCignaは、コンピュータアルゴリズムを使用して何十万もの患者の申し立てを自動的に拒否...

AIテクノロジー

A. Michael West 医療現場における人間とロボットの相互作用の進展

「人間の運動制御を研究していない時、その大学院生は、自身が研究者として成長するのに役立ったプログラムにボランティア活...