In this translation, Notes is translated to メモ (memo), CLIP remains as CLIP, Connecting is translated to 連結 (renketsu), Text is translated to テキスト (tekisuto), and Images is translated to 画像 (gazo).

Translation Guide Notes to メモ (memo), CLIP to CLIP, Connecting to 連結 (renketsu), Text to テキスト (tekisuto), and Images to 画像 (gazo).

Radford、Alec、他。自然言語による監督から転送可能な視覚モデルの学習。国際機械学習会議。PMLR、2021年。

上記の論文の著者は、最小限または無数の監督によって様々なタスクに使用できる良い画像の表現(特徴)を作成することを目指しています。

教師あり学習の制約事項

画像分類モデルによって生成される市販の特徴は、画像検索など他のタスクでも使用されています。しかし、これらの特徴は一般化があまりうまくいかず、分類モデルは固定されたクラスのセットを認識するためにトレーニングされました。このセットに新しいカテゴリを追加する場合、この新しいカテゴリの追加の注釈付き画像を収集し、モデルを再トレーニングする必要があります。これは時間のかかる費用のかかるプロセスです。

これを解決するために、自己教示学習技術を利用することはできますか?

キャプションの言語を監督として使用して、より良い画像表現を生成し、注釈のコストを避けることはできますか?つまり、自然言語を視覚的な知覚を学習するための監督として使用することはできますか?

主な貢献

著者らは、予測タスク(CLIP = Contrastive Language-Image Pre-training)を提案し、ゼロからSOTA画像表現を学習するためにどのキャプションがどの画像に対応するかを予測するための事前トレーニングタスクを行います。これには、インターネットから収集された4億の(画像、テキスト)ペアのデータセットが作成されました。この事前トレーニングモデルは、ほとんどのタスクにおいて非自明に転送され、データセット固有のトレーニングなしで完全に監視されるベースラインと競合することがよくあります。

背景

CLIPは、監督付き画像キャプションの分野からインスピレーションを受けています。対応するキャプション付きの各画像は、対応する画像のキャプション内の正確な単語を予測するためにモデルのトレーニングに使用されます。これは困難なタスクですが、画像はさまざまな方法で説明されても同じ意味を伝えることができます。

しかし、キャプションによって提供される監督をある種の方法で活用するために、著者らは注釈の単語ごとではなく、キャプションが特定の画像と一致するかどうかを予測するプロキシタスクを提案しています。

対照的な事前トレーニング

N枚の画像とそれに対応するN個のキャプションのバッチを考えます。これらを使用して、バッチ内のN x N個の可能な(画像、テキスト)ペアリングを作成できます。今、タスクはバッチ内のNつの実際のペアを予測することです。

CLIPは、画像エンコーダとテキストエンコーダを共同でトレーニングし、多モーダル埋め込み空間を学習します(図1を参照)。画像エンコーダは特徴ベクトルIを生成し、同様にテキストエンコーダは特徴ベクトルTを生成します。

  • Nつの実際のペアにおいて、ITの間の余弦類似度を最大化したい。
  • N² – N個の不正なペアリングにおいて、ITの間の余弦類似度を最小化したい。
Figure 1: Contrastive Pre-training (Image courtesy: paper)

ゼロショット予測

画像分類のタスクを考えてみましょう(図2を参照)。テスト時には、単一の画像に対して画像エンコーダが特徴ベクトルI₁を生成します。画像のクラスを識別するには、テキストエンコーダがターゲットデータセットのクラス名を埋め込み、N個の特徴ベクトルT₁、T₂ … を生成します。Nはターゲットデータセットのクラス数です。

Figure 2: Zero-shot Prediction for image classification using CLIP features (Image courtesy: paper)

モデルの詳細

画像エンコーダについて、著者は2つの異なるアーキテクチャを評価しています。

  • ResNet-50: 著者は修正されたResNet-D(論文を参照)アーキテクチャを使用し、アンチエイリアシングされたrect-2 blurプーリング(論文を参照)を使用しました。また、グローバル平均プーリングレイヤーを「トランスフォーマースタイル」のアテンションプーリングメカニズムに置き換えました。
  • Vision Transform(ViT):著者はトランスフォーマーの前に結合されたパッチと位置の埋め込みに追加のレイヤーノーマライゼーションを使用し、わずかに異なる初期化スキームを使用しています。

テキストエンコーダについては、この論文で説明されているTransformerを使用し、63Mのパラメータ(12レイヤー512幅)と8つのアテンションヘッドを使用します。

トレーニング

著者は5つのResNet(ResNet-50、ResNet-101、および3つのEfficientNetスタイルのResNetモデル)と3つのVision Transformer(ViT-B/32、ViT-B/16、ViT-L/14)をトレーニングします。モデルはアダム最適化器を使用して32エポックトレーニングされ、デカップルされたウェイトディケイ正規化によって学習率はコサインスケジュールで減衰されます。非常に大きなミニバッチサイズである32,768を使用しました。

一部の結果とディスカッション

プロンプトエンジニアリングの効果:

画像分類データセットはクラス名にマップされるラベルIDで注釈が付けられています。CLIPモデルはテキストが完全な文でトレーニングされているため、著者は画像に関連付けられたテキストに対して「A photo of a {label}.」というプロンプトテンプレートを使用することが良いデフォルトと判断しました。図3では、36の分類データセット全体でプロンプトエンジニアリングを使用することで分類精度が5ポイント向上することがわかります。

図3:36のデータセット全体でのゼロショットCLIP分類器性能へのプロンプトエンジニアリングの効果(画像提供:論文)

ゼロショットCLIP vs 線形プローブ

ゼロショットCLIP分類器は、16のデータセットのうち27でResNet-50の特徴に基づく教師あり線形分類器よりも優れた性能を示します(図4)。しかし、CLIPの性能はこれらのほとんどのデータセットにおいて最先端の性能を下回っています。

図4:(画像提供:論文)

制約事項

  • CLIPは、画像内のオブジェクトのカウントや最も近いオブジェクトまでの距離を見つけるなどのタスクでうまく機能しません。
  • MNISTのような領域外のデータセットでは非常に低い性能を示します。ただし、デジタルOCRの性能は良いですが、MNISTの手書き数字の認識では(88%の正確さで)失敗します。
  • CLIPを少数のサンプル学習に使用すると性能が低下します。ゼロショット学習から少数のサンプル学習に移行すると、性能が逆に低下します。
  • CLIPはインターネットからクエリされたテキスト-画像のペアでトレーニングされているため、多くの社会的なバイアスを学習します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Pythonを使用したビデオ内の深さに配慮したオブジェクトの挿入

「コンピュータビジョンの分野では、動画における深度とカメラの位置推定の一貫性が、より高度な操作、例えば動画への深度認...

AI研究

初心者のための2023年の機械学習論文の読み方

「私は数十の機械学習の論文を読み、論文の勉強方法がだいたい分かってきました まず最初に、特定の論文を読む目的を理解する...

AIニュース

『2つの方が1つより優れている:AIと自動化を組み合わせて強力な品質エンジニアリングプロセスを作成する方法』

この記事では、品質エンジニアリングプロセスを向上させるためにAIと自動化技術を組み込む方法について学びます

人工知能

「ゲーミングからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高いですロイターによると、株価は過去8ヶ月で3倍になりましたしかし、...

人工知能

ChatGPTを使用して、忘れられないスローガンを作成する

「ブランドを完璧に象徴するスローガンを作り出すことは、大変な要求ですこのChatGPTのプロンプトを使ってお手伝いしましょう」

データサイエンス

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に...