「もしも、視覚のみのモデルを、わずかな未ラベル化画像を使って線形層のみを訓練することで、ビジョン言語モデル(VLM)に変換できたらどうでしょうか? テキストから概念へ(そしてその逆)のクロスモデルアラインメントによる、Text-to-Conceptの紹介」

What if we could convert a visual-only model into a vision-language model (VLM) by training only the linear layer using a small number of unlabeled images? Introducing Text-to-Concept alignment for cross-model alignment between text and concepts (and vice versa).

深層ビジョンモデルが使用する表現空間には、意味構造が豊富に存在します。しかし、統計量の膨大さのために、人間はこれらの深層特徴空間を理解するのが困難です。深層モデルとは異なり、人間は言語を発展させ、高次元空間のベクトルとして概念をエンコードすることで、周囲の世界を簡潔に表現するための手段を開発してきました。

メリーランド大学とMeta AIは、テキストを概念ベクトルにマッピングする方法を提案しています。この方法では、テキストの監督なしに訓練された市販のビジョンエンコーダを使用して、単語と画像の表現を直接比較することができます。この方法では、ビジョンモデルの表現空間をCLIPモデルと一致させます。CLIPの表現空間は、ビジョンとテキストのエンコーダが同時に訓練されることを意図しています。その結果、テキストから概念へのエンコーダは、すでにCLIPモデルに含まれています。

この方法では、商業的に利用可能なモデルの表現空間間のマッピングを学習します。より具体的には、研究者は、市販のビジョンモデルの表現から同じ画像のCLIP表現を推測するための関数を最大化します。マッピング後、対象テキストの概念ベクトルと同じ空間に整列した特徴が存在します。ただし、マッピング関数は入力の意味を劇的に変える可能性があります。これを避けるために、マッピングの仮説空間にはアフィン変換のみが存在することを確認します。見かけ上複雑さがないにもかかわらず、研究チームは、異なるアーキテクチャと訓練方法を持つモデル間の特徴空間の整列を達成するために、線形層が予想外に有用であることを発見しました。

テキストから概念へのゼロショット分類において商業的に利用可能なエンコーダを使用することは、この方法の強力なサポートを提供します。CLIPモデルと比較すると、商業的に利用可能なモデルは、より大きく、より豊富な監督の下でより多くのサンプルで訓練され、重要なことにはテキストから概念に合わせて明示的に調整されています。これらのモデルは、多くのタスクで驚くべきゼロショットの精度を示します。驚くべきことに、いくつかの場合では、特に色認識において、商業的に利用可能なモデルのゼロショットの精度がCLIPを上回ることがあります。

テキストから概念への利点は、フリーゼロショット学習にとどまらず、概念の監督を必要とせずに視覚エンコーダをコンセプトボトルネックモデル(CBM)に変換することを含みます。たとえば、研究チームは、RIVAL10データセットにこの方法を適用しました。このデータセットには、ゼロショット概念予測の正確性を確保するための属性ラベルが含まれています。提案されたゼロショットアプローチを使用することで、彼らはRIVAL10の属性を高い精度(93.8%)で予測することができ、予想される解釈の利点を持つCBMを作成しました。

彼らの論文では、テキストから概念への変換によって、巨大なデータセットの分布を人間の言葉で説明することも示されています。テキストから概念へのベクトルのコレクションとデータの整列表現との類似性を分析することで、分布シフトを診断することができます。概念ベースの画像検索は、巨大なデータセットとの相互作用を容易にするもう一つのテキストから概念への方法です。研究者は、概念論理を使用して、与えられたモデルの画像表現をクエリし、一連の概念類似度の閾値を満たすモデルを人間が探索する際に、各概念の相対的な重みに関与し、広範なコーパス内の特定の写真の位置を見つける際に受け入れ可能な結果を得ることができます。

最後に、研究チームは概念からテキストへの直接デコードも紹介し、人間と機械のコミュニケーションループを完了します。彼らは、モデルの表現空間をCLIPに整列させた後、事前存在するCLIPスペースデコーダと埋め込みを使用してGPT-2の出力を誘導します。その後、人間の学習を利用して、各ベクトルに関連付けられたクラスを正確に説明するデコードされたキャプションをチェックします。その結果、彼らのシンプルなアプローチは、テストの92%以上で成功していることが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ディープラーニングモデルのレイヤーを凍結する方法 - 正しいやり方」

「モデルの微調整を行いたい場合や、処理する例に応じて一部のパラメータを固定することは、しばしば有用です以下の例で示さ...

AIニュース

ChatGPTの「Browse With Bing」の最良の使い方

ついに... ChatGPTが再びインターネットにアクセスできるようになりました以下は、最良の利用方法です

人工知能

AIが私たちのコーディング方法を変えていく方法

簡単に言うと、この記事では、AIと仕事に関する私の最新の研究の要約(AIが生産性に与える影響を探りながら、長期的な影響に...

人工知能

Taplio LinkedInの成長に最適なAIツール

Taplioは、LinkedIn上で個人ブランドを成長させるのをサポートするために設計されたAIツールです

AIニュース

「AIで生成されたコードはさらにテストが必要ですか?」

「AIを搭載したツールを使用すれば、アプリケーションのプログラミングが簡単になりますしかし、人間によって書かれたコード...

データサイエンス

「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう?」

この記事は次の記事に基づいています:https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読ん...