In this translation, Notes is translated to メモ (memo), CLIP remains as CLIP, Connecting is translated to 連結 (renketsu), Text is translated to テキスト (tekisuto), and Images is translated to 画像 (gazo).
Translation Guide Notes to メモ (memo), CLIP to CLIP, Connecting to 連結 (renketsu), Text to テキスト (tekisuto), and Images to 画像 (gazo).
Radford、Alec、他。自然言語による監督から転送可能な視覚モデルの学習。国際機械学習会議。PMLR、2021年。
上記の論文の著者は、最小限または無数の監督によって様々なタスクに使用できる良い画像の表現(特徴)を作成することを目指しています。
教師あり学習の制約事項
画像分類モデルによって生成される市販の特徴は、画像検索など他のタスクでも使用されています。しかし、これらの特徴は一般化があまりうまくいかず、分類モデルは固定されたクラスのセットを認識するためにトレーニングされました。このセットに新しいカテゴリを追加する場合、この新しいカテゴリの追加の注釈付き画像を収集し、モデルを再トレーニングする必要があります。これは時間のかかる費用のかかるプロセスです。
これを解決するために、自己教示学習技術を利用することはできますか?
- 「ゲームを一段と盛り上げる:スタートアップのスポーツビジョンAIが世界中にアスレチックを放送」
- カリフォルニア州での山火事との戦いにAIが役立つ方法
- プールに飛び込む:CNNプーリングレイヤーの魔法を解き明かす
キャプションの言語を監督として使用して、より良い画像表現を生成し、注釈のコストを避けることはできますか?つまり、自然言語を視覚的な知覚を学習するための監督として使用することはできますか?
主な貢献
著者らは、予測タスク(CLIP = Contrastive Language-Image Pre-training)を提案し、ゼロからSOTA画像表現を学習するためにどのキャプションがどの画像に対応するかを予測するための事前トレーニングタスクを行います。これには、インターネットから収集された4億の(画像、テキスト)ペアのデータセットが作成されました。この事前トレーニングモデルは、ほとんどのタスクにおいて非自明に転送され、データセット固有のトレーニングなしで完全に監視されるベースラインと競合することがよくあります。
背景
CLIPは、監督付き画像キャプションの分野からインスピレーションを受けています。対応するキャプション付きの各画像は、対応する画像のキャプション内の正確な単語を予測するためにモデルのトレーニングに使用されます。これは困難なタスクですが、画像はさまざまな方法で説明されても同じ意味を伝えることができます。
しかし、キャプションによって提供される監督をある種の方法で活用するために、著者らは注釈の単語ごとではなく、キャプションが特定の画像と一致するかどうかを予測するプロキシタスクを提案しています。
対照的な事前トレーニング
N枚の画像とそれに対応するN個のキャプションのバッチを考えます。これらを使用して、バッチ内のN x N個の可能な(画像、テキスト)ペアリングを作成できます。今、タスクはバッチ内のNつの実際のペアを予測することです。
CLIPは、画像エンコーダとテキストエンコーダを共同でトレーニングし、多モーダル埋め込み空間を学習します(図1を参照)。画像エンコーダは特徴ベクトルIを生成し、同様にテキストエンコーダは特徴ベクトルTを生成します。
- Nつの実際のペアにおいて、IとTの間の余弦類似度を最大化したい。
- N² – N個の不正なペアリングにおいて、IとTの間の余弦類似度を最小化したい。
ゼロショット予測
画像分類のタスクを考えてみましょう(図2を参照)。テスト時には、単一の画像に対して画像エンコーダが特徴ベクトルI₁を生成します。画像のクラスを識別するには、テキストエンコーダがターゲットデータセットのクラス名を埋め込み、N個の特徴ベクトルT₁、T₂ … を生成します。Nはターゲットデータセットのクラス数です。
モデルの詳細
画像エンコーダについて、著者は2つの異なるアーキテクチャを評価しています。
- ResNet-50: 著者は修正されたResNet-D(論文を参照)アーキテクチャを使用し、アンチエイリアシングされたrect-2 blurプーリング(論文を参照)を使用しました。また、グローバル平均プーリングレイヤーを「トランスフォーマースタイル」のアテンションプーリングメカニズムに置き換えました。
- Vision Transform(ViT):著者はトランスフォーマーの前に結合されたパッチと位置の埋め込みに追加のレイヤーノーマライゼーションを使用し、わずかに異なる初期化スキームを使用しています。
テキストエンコーダについては、この論文で説明されているTransformerを使用し、63Mのパラメータ(12レイヤー512幅)と8つのアテンションヘッドを使用します。
トレーニング
著者は5つのResNet(ResNet-50、ResNet-101、および3つのEfficientNetスタイルのResNetモデル)と3つのVision Transformer(ViT-B/32、ViT-B/16、ViT-L/14)をトレーニングします。モデルはアダム最適化器を使用して32エポックトレーニングされ、デカップルされたウェイトディケイ正規化によって学習率はコサインスケジュールで減衰されます。非常に大きなミニバッチサイズである32,768を使用しました。
一部の結果とディスカッション
プロンプトエンジニアリングの効果:
画像分類データセットはクラス名にマップされるラベルIDで注釈が付けられています。CLIPモデルはテキストが完全な文でトレーニングされているため、著者は画像に関連付けられたテキストに対して「A photo of a {label}.」というプロンプトテンプレートを使用することが良いデフォルトと判断しました。図3では、36の分類データセット全体でプロンプトエンジニアリングを使用することで分類精度が5ポイント向上することがわかります。
ゼロショットCLIP vs 線形プローブ
ゼロショットCLIP分類器は、16のデータセットのうち27でResNet-50の特徴に基づく教師あり線形分類器よりも優れた性能を示します(図4)。しかし、CLIPの性能はこれらのほとんどのデータセットにおいて最先端の性能を下回っています。
制約事項
- CLIPは、画像内のオブジェクトのカウントや最も近いオブジェクトまでの距離を見つけるなどのタスクでうまく機能しません。
- MNISTのような領域外のデータセットでは非常に低い性能を示します。ただし、デジタルOCRの性能は良いですが、MNISTの手書き数字の認識では(88%の正確さで)失敗します。
- CLIPを少数のサンプル学習に使用すると性能が低下します。ゼロショット学習から少数のサンプル学習に移行すると、性能が逆に低下します。
- CLIPはインターネットからクエリされたテキスト-画像のペアでトレーニングされているため、多くの社会的なバイアスを学習します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles