「ビジョン・トランスフォーマーの内部機能」
「ビジョン・トランスフォーマーの魅力的な内部機能」
トランスフォーマーは、多くのビジョンタスクにおいてモデルアーキテクチャの選択肢となっています。特に注目されているのが、ビジョントランスフォーマー(ViTs)です。彼らはトランスフォーマーを画像パッチのシーケンスに直接適用します。ViTsは、画像分類などのベンチマークでCNNを上回るまたは同じパフォーマンスを示しています。
しかし、MetaとINRIAの研究者たちは、ViTsの内部動作にいくつか奇妙なアーティファクトを見つけました。この記事では、これらのアーティファクトの原因を調査する新しい論文について詳しく見ていきます。そして、研究者がモデルが画像の主題に焦点を合わせることができるようにするために、シンプルなトリックを使った方法を見ていきます。さあ、始めましょう。
神秘的なアテンションの突出
これまでの先行研究では、ビジョントランスフォーマーは滑らかで解釈可能なアテンションマップを生成することが評価されています。これにより、モデルが注目している画像のどの部分に焦点を当てているかを覗くことができます。
しかし、多くのViTの派生モデルでは、ランダムな非情報的な背景パッチに高いアテンションの突出が見られます。なぜこれらのモデルは、これらの画像の主題ではなく、退屈な重要でない背景要素に多くの注目をしているのでしょうか?
- 「AWS 研究者がジェミニを紹介:大規模な深層学習トレーニングにおける画期的な高速障害回復」
- ミシガン大学の研究者は、AIの心理理論において新領域を開拓し、分類法と厳密な評価プロトコルを明らかにしました
- AIにおける事実性の向上 このAI研究は、より正確かつ反映性のある言語モデルを実現するためのセルフ-RAGを紹介します
研究者が減らしたい奇妙なアテンションのアーティファクトを視覚的に示す論文内の図。
モデル間のアテンションマップを可視化し、上記の画像のようなイメージを作成することで、研究者たちはこれがDeiTやCLIPのような教師ありバージョンだけでなく、DINOv2のような新しいセルフスーパーバイズドモデルでも起こることを明確に示しています。
明らかに、何かがモデルが理解できないほど退屈な背景ノイズに焦点を合わせる原因となっています。しかし、それは何なのでしょうか?
原因の追跡:高ノルムの外れ値トークン
出力埋め込みを数値的に調査することで、著者たちは根本的な原因を特定しました。パッチトークンの一部(約2%)が異常に高いL2ノルムを持っており、これらは極端な外れ値です。
ニューラルネットワークのコンテキストでは、ニューロンの重みやバイアスをベクトルとして表現することができます。ベクトルのL2ノルム(またはユークリッドノルム)はその大きさを示す尺度であり、要素の二乗の和の平方根として計算されます。
「ベクトルの異常に高いL2ノルム」と言うと、そのベクトルの大きさや長さが、与えられたコンテキストで予想されるものや典型的なものと比べて異常に大きいことを意味します。
ニューラルネットワークにおける高L2ノルムは、いくつかの問題を示唆しています:
- 過学習:モデルがトレーニングデータに過剰に適合し、ノイズを捉えてしまうと、重みが非常に大きくなる可能性があります。L2正則化などの正則化技術は、これを緩和するために大きな重みを罰します。
- 数値的不安定性:非常に大きなまたは非常に小さな重みは数値的な問題を引き起こし、モデルの不安定性をもたらす可能性があります。
- 一般化の悪化:高L2ノルムは、モデルが新しい未知のデータに適切に一般化しない可能性を示すこともあります。
これを平易な言葉で説明すると、シーソーのバランスを取ろうとしていると想像してください。両側に置くさまざまなサイズの重り(または砂袋)があります。各バッグのサイズは、シーソーのバランスにどれだけ影響や重要性を持っているかを示しています。今、それらのバッグのうちの1つが異常に大きい(高い「L2ノルム」を持つ)場合、そのバッグがバランスに対して過度の影響を与えていることを意味します。
ニューラルネットワークの文脈では、ある部分が異常に高い影響を持っている(高L2ノルムを持つ)場合、他の重要な部分を覆い隠す可能性があり、誤った決定や特定の特徴への過度な依存を引き起こす可能性があります。これは理想的ではなく、しばしば機械を調整して、一部が過度の影響を与えないようにします。
これらの高ノルムのトークンは、アテンションマップの突出部と直接対応しています。つまり、モデルは不明な理由でこれらのパッチに選択的に焦点を当てているのです。
追加の実験結果からは以下が明らかになりました:
- 外れ値は、十分に大きなモデルのトレーニング中にのみ現れます。
- トレーニングの中ほどに現れます。
- 隣接したパッチと非常に類似したパッチで発生し、冗長性を示しています。
さらに、外れ値は元のパッチに関する情報を少なく保持していますが、全体のイメージカテゴリについてより予測が可能です。
この証拠は興味深い理論を示しています…
リサイクル仮説
著者たちは、ImageNet-22Kのような大規模なデータセットでモデルをトレーニングする際、画像の意味を失うことなく破棄できる低情報パッチを特定する学習を行うと提唱しています。
モデルはそのパッチの埋め込みを一時的なグローバル情報の格納に再利用し、関連性のないローカルな詳細を破棄します。これにより効率的な内部特徴処理が可能になります。
しかし、このリサイクルは望ましくない副作用を引き起こします:
- 密なセグメンテーションなどの密集タスクにおける元のパッチの詳細の喪失
- 解釈が困難なスパイキーな注視マップ
- オブジェクトの発見方法との非互換性
したがって、この動作は自然に生じるものですが、否定的な結果をもたらします。
明示的レジスタを使用してViTsの修正
再利用されたパッチを軽減するために、研究者はシーケンスに「レジスタ」トークンを追加してモデルに専用のストレージを与えることを提案しています。
これにより、内部の計算のための一時的なスクラッチスペースが提供され、ランダムなパッチの埋め込みの乗っ取りを防ぎます。
レジスタを使用した結果、モデルは画像の主題により注力します!論文から。
驚くべきことに、この単純な調整は非常に効果的です。レジスタでトレーニングされたモデルは次のような特徴を示します:
- より滑らかで意味のある注視マップ
- さまざまなベンチマークでのわずかな性能向上
- 大幅に改善されたオブジェクト探索能力
レジスタはリサイクルメカニズムに適切な場所を与え、その嫌な副作用を排除します。わずかなアーキテクチャの変更で顕著な利益が得られるのです。
主要なポイント
この興味深い研究はいくつかの貴重な知見を提供しています:
- ビジョン変換モデルは、ストレージ用にパッチを再利用するという予期しない振る舞いを示します
- レジスタを追加することで、意図しない副作用を防ぐ一時的なスクラッチスペースが提供されます
- この単純な修正により注視マップとダウンストリームのパフォーマンスが向上します
- 調査すべき他の未発見のモデルのアーティファクトが存在する可能性があります
ニューラルネットワークのブラックボックスをのぞいてみることで、内部の仕組みについて多くのことが明らかになり、徐々にトランスフォーマーの機能が向上していきます。
ビジョン変換の進歩の速さは停滞する気配がありません。私たちはエキサイティングな時代を生きています!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- アップルの研究者が提案する「大規模な言語モデル強化学習ポリシー(LLaRP)」:体現された視覚的課題のために汎用的なポリシーとして機能するLLMをカスタマイズするためのAIアプローチ
- スタンフォードの研究者がRoboFuMeを導入:最小限の人間の入力でロボットの学習を革新する
- マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました
- この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します
- UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル
- 「研究者たちが量子エレクトロニクスの切り替えを簡素化する」
- 「このチューリング賞受賞者が伝説的な学術アドバイザーになった経緯」