data2vec 自己教師あり学習における画期的な進歩

data2vec 自己教師あり学習の進歩

機械学習モデルは、トレーニングにラベル付きデータに大いに依存しており、伝統的にはラベル付きデータでモデルをトレーニングすることで正確な結果が得られてきました。しかし、ラベル付きデータを使用することの主な欠点は、トレーニングデータのサイズが増えるにつれて増加する注釈コストです。高い注釈コストは、特に大規模なプロジェクトや大量のトレーニングデータで作業する際に、開発者にとって大きなハードルとなります。

注釈の問題に対処するために、開発者はSSLまたはセルフスーパーバイズドラーニングの概念を考案しました。セルフスーパーバイズドラーニングは、モデルが入力の一部を別の入力の一部から学習する機械学習プロセスです。セルフスーパーバイズドラーニングモデルは、ラベル付きデータの監督信号を使用する代わりに、データ間の関係を利用することを目指しています。

セルフスーパーバイズドラーニングの他にも、ラベル付きデータを使用せずに機械学習モデルをトレーニングするためのいくつかの他の方法やモデルがあります。しかし、これらの方法のほとんどは2つの主要な問題を抱えています。

  1. それらはしばしば画像やテキストなどの単一のモダリティに特化しています。
  2. 高い計算能力が必要です。

これらの制限は、画像、テキスト、音声の区別をするために別々のモデルとトレーニングデータに依存するAIモデルよりも、一つのデータタイプから平均的な人間の思考が効果的に学習できる理由となっています。

単一のモダリティの問題に対処するために、Meta AIはdata2vec、初めての自己教師あり高性能アルゴリズムをリリースしました。このアルゴリズムは、画像、テキスト、音声という3つの異なるモダリティからパターン情報を学習することができます。data2vecアルゴリズムの実装により、テキスト理解を画像セグメンテーションの問題に適用したり、音声認識のタスクに展開することができます。

この記事では、data2vecモデルについて詳しく説明します。モデルの概要、関連する研究、アーキテクチャ、およびモデルの結果について詳しく説明することで、data2vecアルゴリズムの明確な理解を得ることができます。

Data2vecの紹介:コアのアイデア

セルフスーパーバイズドラーニングの基本的なコンセプトは、モダリティによって異なる実際の目標やアルゴリズムがあります。単一のモダリティに対してモデルを設計することは、同じ自己教師あり学習アルゴリズムが異なる種類のトレーニングデータで効果的に機能しない理由です。

単一のモダリティモデルやアルゴリズムによる課題を克服するために、Meta AIはdata2vecをリリースしました。data2vecは、コンピュータビジョン、NLP、音声のいずれの場合にも同じ学習方法論を使用するアルゴリズムです。

data2vecアルゴリズムの中心的なアイデアは、標準のTransformerアーキテクチャを用いて、入力のマスクビューを使用して完全な入力データの潜在表現を予測することです。つまり、画像やテキスト、音声などのモダリティ固有のオブジェクトではなく、data2vecアルゴリズムはトレーニングデータや入力データ全体から情報を抽出して潜在表現を予測します。

AI業界がData2Vecアルゴリズムを必要とする理由

セルフスーパーバイズドラーニングモデルは、人間による注釈付きラベルを使用してトレーニングデータの表現を構築し、NLPやコンピュータビジョン技術の進歩の主な要因の一つです。これらのセルフスーパーバイズドラーニングの表現は、音声認識や機械学習のタスクで教師なし学習を展開する理由です。

これまでのところ、これらのセルフスーパーバイズドラーニングアルゴリズムは、個々のモダリティに焦点を当てており、学習バイアスやモデルの特定の設計が生じています。個々のモダリティのセルフスーパーバイズドラーニングアルゴリズムは、コンピュータビジョンやNLPを含むさまざまなAIアプリケーションで課題を引き起こします。

たとえば、音声処理の中にはNLPのセルフスーパーバイズドラーニングタスクを定義することができる音声ユニットの語彙が存在します。同様に、コンピュータビジョンでは、入力を回帰させたり、離散的なビジュアルトークンを学習したり、データの拡張に対して不変な表現を学習したりすることができます。これらの学習バイアスは便利ですが、これらのバイアスが他のモダリティにも一般化するかどうかは確認するのが難しいです。

data2vecアルゴリズムは、単一のモダリティではなく複数のモダリティの向上を目指すセルフスーパーバイズドラーニング業界の重要なマイルストーンです。さらに、data2vecアルゴリズムは、入力の再構築や対比学習に依存しない特徴を持っています。

世界がデータ2vecを必要とする理由は、データ2vecアルゴリズムがAIの進歩を加速させる可能性があり、周囲のさまざまな側面についてシームレスに学習することができるAIモデルの開発に貢献するためです。科学者たちは、データ2vecアルゴリズムによって、今日のAIモデルではできないような高度なタスクを実行できる、より適応性のあるAIおよびMLモデルを開発できると期待しています。

Data2Vecアルゴリズムとは何ですか?

データ2vecは、画像、音声、テキストなど、異なるデータモダリティを横断的に自己教師あり機械学習で実装することを目指す統一フレームワークです。

データ2vecアルゴリズムは、異なるモダリティ間で学習目標を統一化することにより、環境の一般的なパターンをより良く学習するMLモデルを開発することを目指しています。データ2vecモデルは学習アルゴリズムを統一化していますが、それぞれのモダリティの表現を個別に学習します。

データ2vecアルゴリズムの導入により、Meta AIはマルチモーダル学習を効果的かつよりシンプルにすることを期待しています。

Data2Vecアルゴリズムはどのように機能しますか?

データ2vecアルゴリズムは、潜在的なターゲット表現の学習とマスクされた予測の学習を組み合わせていますが、潜在的な表現の一般化には複数のネットワーク層を使用しています。モデルは、まず教師モードまたは学生モードのいずれかで使用するオフシェルフのTransformerネットワークをトレーニングします。

教師モードでは、モデルは最初に学習タスクのターゲットとなる入力データの表現を構築します。学生モードでは、モデルは入力データのマスクバージョンをエンコードし、完全なデータ表現に対して予測を行うために使用します。

上記の図は、データ2vecモデルが異なるモダリティに対して同じ学習プロセスを使用する方法を示しています。最初のステップでは、モデルは入力データの表現(教師モード)を生成します。次に、モデルはこれらの表現を入力のマスクバージョンに対して回帰します。

さらに、データ2vecアルゴリズムは、入力データの潜在的な表現を使用するため、入力を正規化して適切なターゲットを作成するモダリティ固有の設計固定された一連の視覚トークンを学習するなど、モダリティ固有の設計とは異なる簡略化されたバージョンと見なすことができます。しかし、データ2vecと他のアルゴリズムの重要な違いは、データ2vecアルゴリズムがセルフアテンションを使用してターゲット表現をコンテキスト化および連続化することです。一方、他の自己教師あり学習モデルは、ローカルコンテキストに基づいた一連のターゲットを使用します。

Data2vec:モデルの手法

データ2vecモデルは、入力データのモデル表現を予測することでトレーニングされます。与えられた図に示されているように、犬の顔、音声メモの特定のセクション、テキストの「with」という単語がマスクされています。

モデルはまず、トレーニングサンプルのマスクバージョンをエンコードします(学生モード)。その後、モデルは入力のマスクされていないバージョンをエンコードし、同じモデルを使用してトレーニングターゲットを構築しますが、その際にはモデルの重みの指数平均としてパラメータ化されます(教師モード)。さらに、ターゲット表現はトレーニングサンプルに存在する情報をエンコードし、学生モードでは、入力の一部のビューが与えられた場合にこれらの表現を予測するために学習タスクが使用されます。

モデルアーキテクチャ

データ2vecモデルは、入力データのモダリティ固有のエンコーディングを持つ標準的なTransformerアーキテクチャを使用します。コンピュータビジョンに関連するタスクでは、モデルはViT戦略を使用して画像をパッチのシーケンスとしてエンコードし、線形変換として供給されます。

さらに、音声認識のためのデータでは、モデルは16 kHzの波形を50 Hzの表現にマッピングするマルチレイヤー1-D畳み込みニューラルネットワークを使用してデータをエンコードします。テキストデータを処理するために、モデルはデータを前処理してサブワードユニットを抽出し、埋め込みベクトルを介して分散空間にデータを埋め込みます。

マスキング

モデルは、入力データをトークンのシーケンスとして埋め込んだ後、これらの単位の一部を埋め込みトークンで置き換えることによって、モデルはTransformerネットワークにシーケンスを供給します。コンピュータビジョンでは、モデルはブロック単位のマーキング戦略を実践します。潜在的な音声表現は音声データの範囲をマスクするために使用され、言語関連のタスクではトークンをマスクします。

トレーニングターゲット

data2vecモデルは、元々モデルに供給されたマスクされたサンプルのエンコーディングに基づいて、マスク解除されたトレーニングサンプルのモデル表現を予測することを目指しています。モデルはマスクされたタイムステップの表現のみを予測します。

モデルは、特定のタイムステップだけでなく、Transformerネットワーク内での自己注意を使用することで、他の情報もエンコードする文脈化表現を予測します。文脈化表現とTransformerネットワークの使用は、すでに存在するBERT、wav2vec、BEiT、SimMIM、MAE、およびMaskFeatモデルとは異なる特徴です。これらのモデルは文脈情報なしでターゲットを予測します。

以下は、data2vecモデルがネットワーク表現を予測するために教師モードをどのようにパラメータ化するかを示しています。

教師パラメータ化

data2vecモデルは、モデルのパラメータ(θ)のEMA(指数移動平均)を使用して、マスクされていないトレーニングサンプルのエンコーディングをパラメータ化します。ターゲットモード(△)のモデルの重みは次のようになります。

                                           ∆ ← τ∆ + (1 − τ ) θ

 

さらに、モデルはパラメータを線形に増加させるτのスケジュールを使用して、τ0からτe(目標値)までの間に最初のτnの更新でパラメータを増加させます。これらの更新後、トレーニングが終了するまで値を一定に保ちます。EMA戦略の使用により、トレーニングが開始されるとモデルがランダムである場合には、教師がより頻繁に更新されます。トレーニングが進行し、良いパラメータが学習されると、教師の更新はより頻繁に行われなくなります。

結果は、学生モードと教師モードの間で特徴エンコーダと位置エンコーダのパラメータを共有すると、モデルがより効率的で正確になることを示しています。

ターゲット

トレーニングターゲットの構築は、学生モードでマスクされたタイムステップの教師ネットワークの上位Kブロックの出力に依存しています。任意のタイムステップtのブロックlの出力はaltと表されます。モデルはâltを各ブロックに正規化して、最上位のKブロックの平均を取得します。

  

 

合計Lブロックのネットワークのタイムステップtのトレーニングターゲットytを取得します。

学生モードでは、モデルはトレーニングターゲットとして回帰するためのトレーニングターゲットを作成します。初期の実験では、data2vecモデルは専用のプロジェクションを使用して各ブロックを個別に予測し、同時に効率的に行うことができました。

さらに、ターゲットの正規化により、data2vecモデルがタイムステップの一定の表現に収束することを防ぎ、高い正規化を持つレイヤーがターゲットデータセットの特徴を支配するのを防ぎます。音声認識では、学習済みパラメータなしで現在の入力サンプルに対してインスタンスの正規化を使用します。これは、入力データ上のストライドが小さいため、隣接する表現は高い相関を持つためです。

さらに、研究者は、コンピュータビジョンとNLPで作業する際に、パラメータなしの正規化が十分に機能することを発見しました。この問題はVariance-Invariance-Covariance正則化でも解決できますが、上記の戦略は十分に機能し、追加のパラメータは必要ありません。

目標

文脈化トレーニングターゲットytに対して、モデルは以下のようにSmooth L1損失を使用してターゲットを回帰します。

ここでは、βは二乗損失からL1損失に移行する制御を行い、モデル予測ft(x)との間のギャップの大きさに大きく依存します。この損失の利点は、外れ値に対して比較的敏感ではなく、βの設定を調整する必要があるということです。

実験設定

data2vecモデルは、data2vec Largedata2vec Baseの2つのモデルサイズで実験されます。数値の安定性のために、EMAの更新はfp32で行われ、モデルにはL=12またはL=24のTransformerブロックが含まれ、隠れた次元(H)は768またはH=1024です。異なるモダリティと目的に対する実験設定を詳しく見てみましょう。

コンピュータビジョン

data2vecモデルは、224×224ピクセルの画像を16×16ピクセルのパッチとして埋め込みます。これらのパッチのそれぞれは線形変換され、196個の表現からなるシーケンスが標準のTransformerに供給されます。

モデルは、各ブロックがランダムなアスペクト比を持つ最低16のパッチを持つ隣接するパッチをマスクするために、BEiTモデルのように進みます。ただし、元のBEiTモデルではパッチの40%をマスクしていましたが、data2vecモデルではより高い精度のためにパッチの60%をマスクします。

さらに、モデルは画像のクロップをランダムにリサイズし、水平フリップとカラージッタリングを行います。最後に、data2vecモデルは教師モードと学生モードの両方で同じ変更された画像を使用します。

ViT-Bモデルは800エポックの事前トレーニングを行い、data2vecモデルはViT-Lモデルに対してバッチサイズ8,192、ViT-Bモデルに対してバッチサイズ2,048を使用します。data2vecモデルはまた、cosineスケジュールとAdamスケジュールを使用し、単一サイクルで学習率を80エポックで0.001(ViT-L)にウォームアップし、40エポックで0.001(ViT-B)にウォームアップします。

ViT-BとViT-Lの両方に対して、data2vecモデルはβ = 2、K = 6、τ = 0.9998を定数として使用します。モデルはさらに、ストキャスティックデプス率0.2を使用します。

さらに、ViT-Lでは、最初の800エポックの学習率を0.9998とし、その後学習率スケジュールをリセットし、最後の800エポックでは学習率を0.9999に設定してトレーニングを行います。

画像分類では、モデルは最後のTransformerブロックの出力の平均プールを使用し、それをソフトマックス正規化された分類器に供給します。モデルはその後、ViT-Lを50エポック、ViT-Bを100エポック、cosineとAdamを使用して学習率をウォームアップします。

音声処理

音声処理では、data2vecモデルはFairseqを使用します。Fairseqは、要約、翻訳、テキスト生成のためにカスタムモデルをトレーニングするために使用されるシーケンスモデリングキットです。モデルは16 kHzの波形を入力として受け取り、特徴エンコーダを使用して処理し、512のチャネル、カーネル幅(10,3,3,3,3,2,2)、ストライド(5,2,2,2,2,2,2)を持つ時間的畳み込みを含みます。

上記の結果、エンコーダの出力周波数は50Hzであり、各サンプル間のストライドは20msです。受容野は400の入力サンプルまたは25msのオーディオです。生の波形はエンコーダに供給される前に単位分散化およびゼロ平均化されます。

Baseモデルのデータ2ベクトルによるマスキング戦略は、音声認識の自己教師あり学習のためのBaevskiフレームワークに似ています。モデルは、トレーニングシーケンスごとに、スタートインデックスとしての時間ステップの約49%にマスクをかけるために、p = 0.065をサンプリングし、その後の10つの時間ステップをマークします。

トレーニング中、data2vecモデルはτを線形にτo = 0.999、τe = 0.9999、τn = 30,000でアニールします。data2vecモデルはBaseモデルのピーク学習率が5×10-4であるAdamオプティマイザを使用します。さらに、ベースモデルは学習率を最初の3%の更新のために線形にウォームアップし、次の90%の更新のために保持し、残りの7%の更新のために線形に減衰させるトライステージスケジューラを使用します。

自然言語処理

データ2vecモデルは、入力をトークン化するために50,000種類のバイトペアエンコーディングを使用し、その後、モデルは各種類に対して埋め込みを学習します。データがエンコードされた後、モデルはBERTのマスキング戦略を適用し、一様に選択されたトークンの15%に対して、80%は学習されたマスクトークンで置き換えられ、10%はランダムな語彙トークンで置き換えられ、残りの10%は変更されません。

事前学習中、モデルはτo = 0.999、τe = 0.9999、τn = 100,000、K = 10、β = 4を使用し、ピーク学習率が2×10-4で、最初の5%の更新に対して学習率を線形に上昇させ、次の80%で維持し、残りの15%で線形に減衰させるトライステージ学習率スケジュールでAdamオプティマイザを使用します。

さらに、モデルは256のシーケンスを含むバッチサイズで16のGPUでトレーニングされ、各シーケンスには約512のトークンが含まれています。ダウンストリーミングでは、モデルは4つの異なる学習率(1×10-4、2×10-4、3×10-4、4×10-4)で事前学習され、最も良い結果を示したモデルがさらなるNLPダウンストリーミングタスクに選択されます。

結果

上記の戦略を異なるモダリティに対して実装した場合、データ2vecモデルのパフォーマンスを見てみましょう。

コンピュータビジョン

コンピュータビジョンの結果を評価するために、データ2vecモデルはImageNet-1Kデータセットから取得した画像で事前学習されます。その後、同じベンチマークのラベル付きデータを使用してモデルを微調整します。標準的な手法に従い、モデルはバリデーションデータ上のトップ-1精度で評価されます。

次に、結果は単一の自己教師モデル、追加データ上で別個の視覚トークナイザをトレーニングする方法、または他の自己教師学習モデルを基準に区別されます。

以下の表は、コンピュータビジョンのデータ2vecモデルと他の既存モデル(ViT-L、ViT-B)のパフォーマンスを比較しています。

上記の表の結果は次のように要約できます。

  • データ2vecモデルは、単一モデル設定でViT-LモデルとViT-Bモデルの両方を上回ります。
  • データ2vecアルゴリズムのマスク予測セットアップは、エンジニアリング画像特徴、入力ピクセル、または視覚トークンのようなローカルターゲットを予測する方法と比較して、コンテキスト化された潜在表現を予測する際に優れたパフォーマンスを発揮します。
  • データ2vecモデルは、画像の2つの異なる拡張バージョンを入力として使用しながら、学生ネットワークの最終層を回帰するセルフディスティレーション方法よりも優れたパフォーマンスを発揮します。

音声・音響処理

音声・音響処理では、データ2vecモデルはLibrispeech(LS-960)データセットから取得した約960時間の音声データでトレーニングされます。このデータセットには、英語のオーディオブックからのクリーンな音声が含まれており、音声・音響処理業界において標準的なベンチマークとされています。

モデルのパフォーマンスを異なるリソース設定で分析するために、研究者は自動音声認識のためにラベル付きデータの異なる量(数分から数時間)を使用してデータ2vecモデルを微調整しました。モデルのパフォーマンスを分析するために、データ2vecは音声・音響表現学習のための最も人気のあるアルゴリズムであるHuBERTwav2vec 2.0と比較されます。

上記の表は、音声認識の単語レートにおけるデータ2vecのパフォーマンスを他の既存モデルと比較しています。LMはデコーディングに使用される言語モデルを表します。結果は次のように要約できます。

  • データ2vecモデルは、ベースモデルのラベル付きデータのほとんどのセットアップで改善が見られます。
  • 大規模モデルの場合、モデルは少ないラベル付きデータセットで大幅に性能が向上し、100時間と960時間以上のラベル付きデータセットでは性能が比較可能です。これは、ほとんどのモデルにおいてリソース豊富なラベル付きデータセットで性能が飽和するためです。
  • パフォーマンスを分析した結果、豊かなコンテキスト化されたターゲットを使用する場合、離散的なユニットを学習する必要はありません。
  • トレーニング中にコンテキスト化されたターゲットを学習することは、全体的なパフォーマンスを大幅に改善します。

さらに、speech recognitionのためにdata2vecのアプローチを検証するために、モデルはAudioSetベンチマークでもトレーニングされます。AudioSetの事前トレーニングのセットアップはLibrispeechと似ていますが、モデルはK=12でトレーニングされ、バッチのサイズは94.5分です。

モデルはDeepNormフレームワークとレイヤー正規化を適用して、ターゲットのトレーニングの安定化を支援します。さらに、モデルはバッチサイズが21.3分のバランスの取れたサブセットでファインチューニングも行います。モデルはまた、確率スコアが0.7のLinear Softmax Poolingとmixupを使用します。モデルは527のユニークなオーディオクラスに単一の線形射影を追加し、射影の学習率を2e-4に設定します。

さらに、事前トレーニングパラメータは学習率が3e-5であり、モデルはデータセットのファインチューニングにマスキング技術を使用します。以下の表は結果をまとめたものであり、同じファインチューニングと事前トレーニングデータを持つ類似のセットアップと比較して、data2vecモデルが優れた性能を発揮することがわかります。

Natural Language Processing

テキストのdata2vecのパフォーマンスを分析するために、モデルはBERTと同じトレーニングセットアップに従い、英語のWikipediaデータセットを1M以上のアップデートで事前トレーニングし、バッチサイズは256シーケンスです。モデルはGLUE or General Language Understanding Evaluationベンチマークで評価されます。これには自然言語の干渉タスク(MNLI or Multi Genre Natural Language Inference)、文章の類似度(QQP or Quora Question Pairs benchmark、MRPC or Microsoft Research Paragraph Corpus、STS-B or Semantic Textual Similarity Benchmark)、感情分析(SST-2 or Stanford Sentiment Treebank)、および文法(CoLA)が含まれます。

さらに、data2vecモデルをファインチューニングするために、各タスクからラベル付きデータが提供され、5回のファインチューニング実行で開発セットの平均正確性が報告されます。以下の表は、自然言語処理タスクのdata2vecモデルのパフォーマンスをまとめ、他のモデルと比較したものです。

  • 上記のデータから、data2vecモデルはランダムなターゲットを使用しない戦略のため、基準となるRoBERTaモデルを上回ることがわかります。
  • data2vecモデルは、文字、単語、またはサブワードのような離散的な単位をトレーニングのターゲットとして使用しない、最初の成功した事前トレーニングNLPモデルです。代わりに、data2vecフレームワークは、完全にマスク解除されたテキストシーケンス全体でコンテキストに依存した潜在的な表現を予測します。
  • これにより、モデルは特定の特性を持つターゲットを現在のシーケンスから予測する学習タスクを作成することができます。これは、特定の裁量を持つすべてのテキスト単位に対して一般的な表現を予測する代わりに、モデルが新しいターゲットを定義し、語彙設定に対して開放されることを意味します。
  • さらに、トレーニングターゲットセットは固定されておらず、モデルは新しいターゲットを定義することができ、語彙設定に対してオープンです。

Data2Vec: Ablations Study

Ablationは、AIやMLシステムから特定のコンポーネントを削除することを定義する用語です。ablation studyは、そのコンポーネントの全体的なシステムへの貢献を理解するために、特定のキーコンポーネントをモデルから削除することによってAIやMLモデルのパフォーマンスを調査または分析するために使用されます。

Layer Averaged Targets

data2vecと他の自己教師付き学習モデルの主な違いは、data2vecモデルが教師ネットワークの複数のレイヤーの平均を基にしたターゲットを使用していることです。このアイデアは、wav2vec 2.0モデルのトップレイヤーがモデルの中間レイヤーと比較してダウンストリームタスクでうまく機能しないという事実から生まれています。

以下の実験では、K=1、2、…、12のレイヤーを平均化することによって、すべての3つのモダリティのパフォーマンスを測定します。K=1ではトップレイヤーのみを予測します。ただし、より速いターンアラウンド時間を得るために、data2vecは合計で12層のベースモデルをトレーニングします。音声認識の場合、モデルはLibrispeechで20万以上のアップデートで事前トレーニングされ、その後Libri-lightの10時間のラベル付き分割でファインチューニングされます。自然言語処理の場合、モデルはバリデーションセットの平均GLUEスコアを報告し、コンピュータビジョンのために300エポックモデルを事前トレーニングし、ImageNetデータセットで得られたトップ1の正確性を報告します。

上記の図は、複数の層に基づくターゲットが一般的に、すべてのモダリティに対してトップレイヤーK=1のみを使用した場合に改善することを示しています。すべての利用可能なレイヤーを使用することは、ニューラルネットワークが異なるタイプの特徴上に特徴を構築し、その後特徴層として抽出されるため、良い実践です。

複数のレイヤーからの特徴を使用することは、精度向上に役立ち、自己教師あり学習プロセスを豊かにします。

ターゲット特徴タイプ

data2vecモデルのトランスフォーマーブロックには、ターゲットとして機能するいくつかのレイヤーがあります。さまざまなレイヤーがパフォーマンスにどのような影響を与えるかを分析するために、モデルはLibrispeechの音声モデルで事前トレーニングされ、異なるレイヤーがターゲット特徴として使用されます。

以下の図は、フィードフォワードネットワーク(FFN)の出力が理想的に機能する一方、セルフアテンションブロックの出力は使用可能なモデルを生成しないことを明確に示しています。

ターゲットの文脈化

data2vecモデルの教師表現は、全体の入力に対してセルフアテンションを使用して文脈化されたターゲットを生成します。これは、他のセルフ教師あり学習モデルが入力の一部を再構築したり予測したりして学習タスクを構築するのとは異なる点です。これは、data2vecモデルが文脈化されたターゲットを必要とするのかという疑問を明らかにします。

この疑問に答えるために、研究者は入力データセット全体ではなく、あらかじめ決まった一部のみにアクセスできるターゲット表現を構築します。その後、モデルは周囲の環境入力の一部にのみアクセスできるセルフアテンションメカニズムを制限します。モデルがトレーニングされた後、フルコンテキストサイズにアクセスできるように微調整されます。

以下の図は、より大きなコンテキストサイズがしばしばより良いパフォーマンスをもたらし、入力サンプル全体が可視である場合に最高の精度をもたらすことを示しています。これはさらに、より豊かなターゲット表現がより良いパフォーマンスをもたらすことを証明しています。

モダリティ固有の特徴抽出器とマスキング

data2vecの主な目的は、異なるモダリティで動作するための単純な学習メカニズムを設計することです。現在のモデルやフレームワークは統一された学習体制を持っているものの、モダリティ固有のマスキングと特徴抽出器を使用しています。

入力データの性質は大きく異なるため、フレームワークは主に単一のモダリティで動作することが合理的です。たとえば、音声認識モデルは高解像度の入力(10 kHzの波形など)を使用し、通常数千サンプルを持っています。その波形は、マルチレイヤーの畳み込みニューラルネットワークを使用して処理され、50 Hzの特徴シーケンスを取得します。

構造化された文脈化ターゲット

data2vecと他のマスキング予測モデルとの主な違いは、data2vecモデルではトレーニングターゲットの特徴が文脈化されていることです。これらの特徴は、教師モードでマスクされた入力全体のセルフアテンションを使用して構築されます。

BYOL(Bootstrap Your Own Latent)やDINOのような他のフレームワークも、data2vecと同様に潜在表現を使用しますが、彼らの主な焦点は変換不変な表現を学習することです。

最終的な考え

AIとML業界の最近の研究は、一貫したモデルアーキテクチャが複数のモダリティに対処するための効果的なアプローチであることを示しています。data2vecモデルは、音声、画像、言語の3つのモダリティでの作業において、セルフ教師あり学習アプローチを使用しています。

data2vecモデルのキーコンセプトは、文脈化情報や入力データを回帰するために部分的な入力ビューを使用することです。data2vecフレームワークが使用するアプローチは効果的であり、モデルはViT-B、ViT-Lの単一モデルの両方でImageNet-1Kデータセットにおいて従来のセルフ教師あり学習モデルよりも優れたパフォーマンスを発揮します。

data2vecは、異なるモダリティ間で学習するための単一の学習手法が本当に可能であることを示す、セルフ教師あり学習業界の画期的な存在です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more