Search Results A

「もしも、視覚のみのモデルを、わずかな未ラベル化画像を使って線形層のみを訓練することで、ビジョン言語モデル（VLM）に変換できたらどうでしょうか？テキストから概念へ（そしてその逆）のクロスモデルアラインメントによる、Text-to-Conceptの紹介」

深層ビジョンモデルが使用する表現空間には、意味構造が豊富に存在します。しかし、統計量の膨大さのために、人間はこれらの深層特徴空間を理解するのが困難です。深層モデルとは異なり、人間は言語を発展させ、高次元空間のベクトルとして概念をエンコードすることで、周囲の世界を簡潔に表現するための手段を開発してきました。メリーランド大学とMeta AIは、テキストを概念ベクトルにマッピングする方法を提案しています。この方法では、テキストの監督なしに訓練された市販のビジョンエンコーダを使用して、単語と画像の表現を直接比較することができます。この方法では、ビジョンモデルの表現空間をCLIPモデルと一致させます。CLIPの表現空間は、ビジョンとテキストのエンコーダが同時に訓練されることを意図しています。その結果、テキストから概念へのエンコーダは、すでにCLIPモデルに含まれています。この方法では、商業的に利用可能なモデルの表現空間間のマッピングを学習します。より具体的には、研究者は、市販のビジョンモデルの表現から同じ画像のCLIP表現を推測するための関数を最大化します。マッピング後、対象テキストの概念ベクトルと同じ空間に整列した特徴が存在します。ただし、マッピング関数は入力の意味を劇的に変える可能性があります。これを避けるために、マッピングの仮説空間にはアフィン変換のみが存在することを確認します。見かけ上複雑さがないにもかかわらず、研究チームは、異なるアーキテクチャと訓練方法を持つモデル間の特徴空間の整列を達成するために、線形層が予想外に有用であることを発見しました。テキストから概念へのゼロショット分類において商業的に利用可能なエンコーダを使用することは、この方法の強力なサポートを提供します。CLIPモデルと比較すると、商業的に利用可能なモデルは、より大きく、より豊富な監督の下でより多くのサンプルで訓練され、重要なことにはテキストから概念に合わせて明示的に調整されています。これらのモデルは、多くのタスクで驚くべきゼロショットの精度を示します。驚くべきことに、いくつかの場合では、特に色認識において、商業的に利用可能なモデルのゼロショットの精度がCLIPを上回ることがあります。テキストから概念への利点は、フリーゼロショット学習にとどまらず、概念の監督を必要とせずに視覚エンコーダをコンセプトボトルネックモデル（CBM）に変換することを含みます。たとえば、研究チームは、RIVAL10データセットにこの方法を適用しました。このデータセットには、ゼロショット概念予測の正確性を確保するための属性ラベルが含まれています。提案されたゼロショットアプローチを使用することで、彼らはRIVAL10の属性を高い精度（93.8%）で予測することができ、予想される解釈の利点を持つCBMを作成しました。彼らの論文では、テキストから概念への変換によって、巨大なデータセットの分布を人間の言葉で説明することも示されています。テキストから概念へのベクトルのコレクションとデータの整列表現との類似性を分析することで、分布シフトを診断することができます。概念ベースの画像検索は、巨大なデータセットとの相互作用を容易にするもう一つのテキストから概念への方法です。研究者は、概念論理を使用して、与えられたモデルの画像表現をクエリし、一連の概念類似度の閾値を満たすモデルを人間が探索する際に、各概念の相対的な重みに関与し、広範なコーパス内の特定の写真の位置を見つける際に受け入れ可能な結果を得ることができます。最後に、研究チームは概念からテキストへの直接デコードも紹介し、人間と機械のコミュニケーションループを完了します。彼らは、モデルの表現空間をCLIPに整列させた後、事前存在するCLIPスペースデコーダと埋め込みを使用してGPT-2の出力を誘導します。その後、人間の学習を利用して、各ベクトルに関連付けられたクラスを正確に説明するデコードされたキャプションをチェックします。その結果、彼らのシンプルなアプローチは、テストの92%以上で成功していることが示されています。