Learn more about Search Results A - Page 750

「もしも、視覚のみのモデルを、わずかな未ラベル化画像を使って線形層のみを訓練することで、ビジョン言語モデル(VLM)に変換できたらどうでしょうか? テキストから概念へ(そしてその逆)のクロスモデルアラインメントによる、Text-to-Conceptの紹介」

深層ビジョンモデルが使用する表現空間には、意味構造が豊富に存在します。しかし、統計量の膨大さのために、人間はこれらの深層特徴空間を理解するのが困難です。深層モデルとは異なり、人間は言語を発展させ、高次元空間のベクトルとして概念をエンコードすることで、周囲の世界を簡潔に表現するための手段を開発してきました。 メリーランド大学とMeta AIは、テキストを概念ベクトルにマッピングする方法を提案しています。この方法では、テキストの監督なしに訓練された市販のビジョンエンコーダを使用して、単語と画像の表現を直接比較することができます。この方法では、ビジョンモデルの表現空間をCLIPモデルと一致させます。CLIPの表現空間は、ビジョンとテキストのエンコーダが同時に訓練されることを意図しています。その結果、テキストから概念へのエンコーダは、すでにCLIPモデルに含まれています。 この方法では、商業的に利用可能なモデルの表現空間間のマッピングを学習します。より具体的には、研究者は、市販のビジョンモデルの表現から同じ画像のCLIP表現を推測するための関数を最大化します。マッピング後、対象テキストの概念ベクトルと同じ空間に整列した特徴が存在します。ただし、マッピング関数は入力の意味を劇的に変える可能性があります。これを避けるために、マッピングの仮説空間にはアフィン変換のみが存在することを確認します。見かけ上複雑さがないにもかかわらず、研究チームは、異なるアーキテクチャと訓練方法を持つモデル間の特徴空間の整列を達成するために、線形層が予想外に有用であることを発見しました。 テキストから概念へのゼロショット分類において商業的に利用可能なエンコーダを使用することは、この方法の強力なサポートを提供します。CLIPモデルと比較すると、商業的に利用可能なモデルは、より大きく、より豊富な監督の下でより多くのサンプルで訓練され、重要なことにはテキストから概念に合わせて明示的に調整されています。これらのモデルは、多くのタスクで驚くべきゼロショットの精度を示します。驚くべきことに、いくつかの場合では、特に色認識において、商業的に利用可能なモデルのゼロショットの精度がCLIPを上回ることがあります。 テキストから概念への利点は、フリーゼロショット学習にとどまらず、概念の監督を必要とせずに視覚エンコーダをコンセプトボトルネックモデル(CBM)に変換することを含みます。たとえば、研究チームは、RIVAL10データセットにこの方法を適用しました。このデータセットには、ゼロショット概念予測の正確性を確保するための属性ラベルが含まれています。提案されたゼロショットアプローチを使用することで、彼らはRIVAL10の属性を高い精度(93.8%)で予測することができ、予想される解釈の利点を持つCBMを作成しました。 彼らの論文では、テキストから概念への変換によって、巨大なデータセットの分布を人間の言葉で説明することも示されています。テキストから概念へのベクトルのコレクションとデータの整列表現との類似性を分析することで、分布シフトを診断することができます。概念ベースの画像検索は、巨大なデータセットとの相互作用を容易にするもう一つのテキストから概念への方法です。研究者は、概念論理を使用して、与えられたモデルの画像表現をクエリし、一連の概念類似度の閾値を満たすモデルを人間が探索する際に、各概念の相対的な重みに関与し、広範なコーパス内の特定の写真の位置を見つける際に受け入れ可能な結果を得ることができます。 最後に、研究チームは概念からテキストへの直接デコードも紹介し、人間と機械のコミュニケーションループを完了します。彼らは、モデルの表現空間をCLIPに整列させた後、事前存在するCLIPスペースデコーダと埋め込みを使用してGPT-2の出力を誘導します。その後、人間の学習を利用して、各ベクトルに関連付けられたクラスを正確に説明するデコードされたキャプションをチェックします。その結果、彼らのシンプルなアプローチは、テストの92%以上で成功していることが示されています。

「カスタムGPT-4チャットボットの作り方」

ダンテは、技術的な能力に関係なく、誰でも5分以内に専用のAIチャットボットを作成、トレーニング、展開できるようにします

「GPUのマスタリング:PythonでのGPUアクセラレーテッドデータフレームの初心者ガイド」

「RAPIDS cuDFは、pandasのようなAPIを備えており、データサイエンティストやエンジニアがわずかなコードの変更でGPU上での並列計算の膨大な可能性に素早くアクセスできるようにします詳細は以下をお読みください」

「データアナリストがよく遭遇するであろう10の一般的な質問—それに対する回答方法」

データ分析の早い世界では、新しい役割に飛び込む際にデジャブを経験することは珍しくありません同じ質問が繰り返されるパターンに気付いたことがあるかもしれません...

「Ph.D.学生や研究者向けの無料オンラインコース10選」

「博士課程への取り組みや研究者としてのキャリアを追求することは、知識に対する渇望、卓越性を求める探求心、そして自分の分野に大きな影響を与えるという使命感を要求します博士課程の学生として…」

チャーン予測とチャーンアップリフトを超えて

データサイエンスで非常に一般的なタスクの1つは、離反予測ですただし、離反予測はしばしば中間ステップであり、ほとんどが最終目標ではありません通常、私たちが実際に関心を持つのは、削減することです...

「昨年のハイライトでODSC West 2023に向けて気分を高揚させよう!」

データサイエンスを学ぶ際には、関連するトピックや形式などを考慮する必要がありますAIをより良く構築するために、今年のODSC Westからのトップテンのバーチャルトークのリストを作成しましたので、さまざまなトピックを学ぶことができます

画像からテキストを抽出するためのトップ5のPythonライブラリ

光学文字認識は古いが、まだ挑戦的な問題であり、画像やPDF文書などの非構造化データからテキストを検出・認識することを含んでいますそれはクールです…

「ラスティックデータ:Plottersを使用したデータの可視化ー第1部」

プロッターは、データの視覚化のための人気のあるRustライブラリです高品質のグラフ、チャート、およびその他の視覚化を作成するためのさまざまなツールと機能を提供していますこれは...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us