「ビジョン・トランスフォーマーの内部機能」

「ビジョン・トランスフォーマーの魅力的な内部機能」

トランスフォーマーは、多くのビジョンタスクにおいてモデルアーキテクチャの選択肢となっています。特に注目されているのが、ビジョントランスフォーマー(ViTs)です。彼らはトランスフォーマーを画像パッチのシーケンスに直接適用します。ViTsは、画像分類などのベンチマークでCNNを上回るまたは同じパフォーマンスを示しています。

しかし、MetaとINRIAの研究者たちは、ViTsの内部動作にいくつか奇妙なアーティファクトを見つけました。この記事では、これらのアーティファクトの原因を調査する新しい論文について詳しく見ていきます。そして、研究者がモデルが画像の主題に焦点を合わせることができるようにするために、シンプルなトリックを使った方法を見ていきます。さあ、始めましょう。

神秘的なアテンションの突出

これまでの先行研究では、ビジョントランスフォーマーは滑らかで解釈可能なアテンションマップを生成することが評価されています。これにより、モデルが注目している画像のどの部分に焦点を当てているかを覗くことができます。

しかし、多くのViTの派生モデルでは、ランダムな非情報的な背景パッチに高いアテンションの突出が見られます。なぜこれらのモデルは、これらの画像の主題ではなく、退屈な重要でない背景要素に多くの注目をしているのでしょうか?

研究者が減らしたい奇妙なアテンションのアーティファクトを視覚的に示す論文内の図

モデル間のアテンションマップを可視化し、上記の画像のようなイメージを作成することで、研究者たちはこれがDeiTやCLIPのような教師ありバージョンだけでなく、DINOv2のような新しいセルフスーパーバイズドモデルでも起こることを明確に示しています。

明らかに、何かがモデルが理解できないほど退屈な背景ノイズに焦点を合わせる原因となっています。しかし、それは何なのでしょうか?

原因の追跡:高ノルムの外れ値トークン

出力埋め込みを数値的に調査することで、著者たちは根本的な原因を特定しました。パッチトークンの一部(約2%)が異常に高いL2ノルムを持っており、これらは極端な外れ値です。

ニューラルネットワークのコンテキストでは、ニューロンの重みやバイアスをベクトルとして表現することができます。ベクトルのL2ノルム(またはユークリッドノルム)はその大きさを示す尺度であり、要素の二乗の和の平方根として計算されます。

「ベクトルの異常に高いL2ノルム」と言うと、そのベクトルの大きさや長さが、与えられたコンテキストで予想されるものや典型的なものと比べて異常に大きいことを意味します。

ニューラルネットワークにおける高L2ノルムは、いくつかの問題を示唆しています:

  1. 過学習:モデルがトレーニングデータに過剰に適合し、ノイズを捉えてしまうと、重みが非常に大きくなる可能性があります。L2正則化などの正則化技術は、これを緩和するために大きな重みを罰します。
  2. 数値的不安定性:非常に大きなまたは非常に小さな重みは数値的な問題を引き起こし、モデルの不安定性をもたらす可能性があります。
  3. 一般化の悪化:高L2ノルムは、モデルが新しい未知のデータに適切に一般化しない可能性を示すこともあります。

これを平易な言葉で説明すると、シーソーのバランスを取ろうとしていると想像してください。両側に置くさまざまなサイズの重り(または砂袋)があります。各バッグのサイズは、シーソーのバランスにどれだけ影響や重要性を持っているかを示しています。今、それらのバッグのうちの1つが異常に大きい(高い「L2ノルム」を持つ)場合、そのバッグがバランスに対して過度の影響を与えていることを意味します。

ニューラルネットワークの文脈では、ある部分が異常に高い影響を持っている(高L2ノルムを持つ)場合、他の重要な部分を覆い隠す可能性があり、誤った決定や特定の特徴への過度な依存を引き起こす可能性があります。これは理想的ではなく、しばしば機械を調整して、一部が過度の影響を与えないようにします。

これらの高ノルムのトークンは、アテンションマップの突出部と直接対応しています。つまり、モデルは不明な理由でこれらのパッチに選択的に焦点を当てているのです。

追加の実験結果からは以下が明らかになりました:

  • 外れ値は、十分に大きなモデルのトレーニング中にのみ現れます。
  • トレーニングの中ほどに現れます。
  • 隣接したパッチと非常に類似したパッチで発生し、冗長性を示しています。

さらに、外れ値は元のパッチに関する情報を少なく保持していますが、全体のイメージカテゴリについてより予測が可能です。

この証拠は興味深い理論を示しています…

リサイクル仮説

著者たちは、ImageNet-22Kのような大規模なデータセットでモデルをトレーニングする際、画像の意味を失うことなく破棄できる低情報パッチを特定する学習を行うと提唱しています。

モデルはそのパッチの埋め込みを一時的なグローバル情報の格納に再利用し、関連性のないローカルな詳細を破棄します。これにより効率的な内部特徴処理が可能になります。

しかし、このリサイクルは望ましくない副作用を引き起こします:

  • 密なセグメンテーションなどの密集タスクにおける元のパッチの詳細の喪失
  • 解釈が困難なスパイキーな注視マップ
  • オブジェクトの発見方法との非互換性

したがって、この動作は自然に生じるものですが、否定的な結果をもたらします。

明示的レジスタを使用してViTsの修正

再利用されたパッチを軽減するために、研究者はシーケンスに「レジスタ」トークンを追加してモデルに専用のストレージを与えることを提案しています。

これにより、内部の計算のための一時的なスクラッチスペースが提供され、ランダムなパッチの埋め込みの乗っ取りを防ぎます。

レジスタを使用した結果、モデルは画像の主題により注力します!論文から。

驚くべきことに、この単純な調整は非常に効果的です。レジスタでトレーニングされたモデルは次のような特徴を示します:

  • より滑らかで意味のある注視マップ
  • さまざまなベンチマークでのわずかな性能向上
  • 大幅に改善されたオブジェクト探索能力

レジスタはリサイクルメカニズムに適切な場所を与え、その嫌な副作用を排除します。わずかなアーキテクチャの変更で顕著な利益が得られるのです。

主要なポイント

この興味深い研究はいくつかの貴重な知見を提供しています:

  • ビジョン変換モデルは、ストレージ用にパッチを再利用するという予期しない振る舞いを示します
  • レジスタを追加することで、意図しない副作用を防ぐ一時的なスクラッチスペースが提供されます
  • この単純な修正により注視マップとダウンストリームのパフォーマンスが向上します
  • 調査すべき他の未発見のモデルのアーティファクトが存在する可能性があります

ニューラルネットワークのブラックボックスをのぞいてみることで、内部の仕組みについて多くのことが明らかになり、徐々にトランスフォーマーの機能が向上していきます。

ビジョン変換の進歩の速さは停滞する気配がありません。私たちはエキサイティングな時代を生きています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「AIスタートアップのトレンド:Y Combinatorの最新バッチからの洞察」

シリコンバレーを拠点とする有名なスタートアップアクセラレータであるY Combinator(YC)は、最近、2023年冬のコホートを発...

データサイエンス

価値あるデータテストの作成方法

データの品質については、過去の1年間で広く議論されてきましたデータ契約、データ製品、データ監視ツールの採用が増えている...

機械学習

「ChatGPTなどの大規模言語モデル(LLM)がファインチューニングにおいて教師あり学習ではなく強化学習を使用する理由」の5つの理由

過去数ヶ月間でのGenerative Artificial Intelligenceの大成功により、Large Language Modelsは絶えず進化と改善を遂げていま...

機械学習

「プロジェクトRumiにご参加ください:大規模言語モデルのための多言語パラ言語的プロンプティング」

新興技術のデジタル時代において、LLM(Large Language Models)は、人間の社会と文化の多くの側面を革新し、コンピュータと...

機械学習

「言葉から世界へ:AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」

言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲー...

データサイエンス

「線形代数1:線形方程式とシステム」

「これは、機械学習の基礎数学である線形代数の基本に関するシリーズの最初のエントリですこの記事は、以下の言語で読まれる...