「ビジョン・トランスフォーマーの内部機能」

「ビジョン・トランスフォーマーの魅力的な内部機能」

トランスフォーマーは、多くのビジョンタスクにおいてモデルアーキテクチャの選択肢となっています。特に注目されているのが、ビジョントランスフォーマー(ViTs)です。彼らはトランスフォーマーを画像パッチのシーケンスに直接適用します。ViTsは、画像分類などのベンチマークでCNNを上回るまたは同じパフォーマンスを示しています。

しかし、MetaとINRIAの研究者たちは、ViTsの内部動作にいくつか奇妙なアーティファクトを見つけました。この記事では、これらのアーティファクトの原因を調査する新しい論文について詳しく見ていきます。そして、研究者がモデルが画像の主題に焦点を合わせることができるようにするために、シンプルなトリックを使った方法を見ていきます。さあ、始めましょう。

神秘的なアテンションの突出

これまでの先行研究では、ビジョントランスフォーマーは滑らかで解釈可能なアテンションマップを生成することが評価されています。これにより、モデルが注目している画像のどの部分に焦点を当てているかを覗くことができます。

しかし、多くのViTの派生モデルでは、ランダムな非情報的な背景パッチに高いアテンションの突出が見られます。なぜこれらのモデルは、これらの画像の主題ではなく、退屈な重要でない背景要素に多くの注目をしているのでしょうか?

研究者が減らしたい奇妙なアテンションのアーティファクトを視覚的に示す論文内の図

モデル間のアテンションマップを可視化し、上記の画像のようなイメージを作成することで、研究者たちはこれがDeiTやCLIPのような教師ありバージョンだけでなく、DINOv2のような新しいセルフスーパーバイズドモデルでも起こることを明確に示しています。

明らかに、何かがモデルが理解できないほど退屈な背景ノイズに焦点を合わせる原因となっています。しかし、それは何なのでしょうか?

原因の追跡:高ノルムの外れ値トークン

出力埋め込みを数値的に調査することで、著者たちは根本的な原因を特定しました。パッチトークンの一部(約2%)が異常に高いL2ノルムを持っており、これらは極端な外れ値です。

ニューラルネットワークのコンテキストでは、ニューロンの重みやバイアスをベクトルとして表現することができます。ベクトルのL2ノルム(またはユークリッドノルム)はその大きさを示す尺度であり、要素の二乗の和の平方根として計算されます。

「ベクトルの異常に高いL2ノルム」と言うと、そのベクトルの大きさや長さが、与えられたコンテキストで予想されるものや典型的なものと比べて異常に大きいことを意味します。

ニューラルネットワークにおける高L2ノルムは、いくつかの問題を示唆しています:

  1. 過学習:モデルがトレーニングデータに過剰に適合し、ノイズを捉えてしまうと、重みが非常に大きくなる可能性があります。L2正則化などの正則化技術は、これを緩和するために大きな重みを罰します。
  2. 数値的不安定性:非常に大きなまたは非常に小さな重みは数値的な問題を引き起こし、モデルの不安定性をもたらす可能性があります。
  3. 一般化の悪化:高L2ノルムは、モデルが新しい未知のデータに適切に一般化しない可能性を示すこともあります。

これを平易な言葉で説明すると、シーソーのバランスを取ろうとしていると想像してください。両側に置くさまざまなサイズの重り(または砂袋)があります。各バッグのサイズは、シーソーのバランスにどれだけ影響や重要性を持っているかを示しています。今、それらのバッグのうちの1つが異常に大きい(高い「L2ノルム」を持つ)場合、そのバッグがバランスに対して過度の影響を与えていることを意味します。

ニューラルネットワークの文脈では、ある部分が異常に高い影響を持っている(高L2ノルムを持つ)場合、他の重要な部分を覆い隠す可能性があり、誤った決定や特定の特徴への過度な依存を引き起こす可能性があります。これは理想的ではなく、しばしば機械を調整して、一部が過度の影響を与えないようにします。

これらの高ノルムのトークンは、アテンションマップの突出部と直接対応しています。つまり、モデルは不明な理由でこれらのパッチに選択的に焦点を当てているのです。

追加の実験結果からは以下が明らかになりました:

  • 外れ値は、十分に大きなモデルのトレーニング中にのみ現れます。
  • トレーニングの中ほどに現れます。
  • 隣接したパッチと非常に類似したパッチで発生し、冗長性を示しています。

さらに、外れ値は元のパッチに関する情報を少なく保持していますが、全体のイメージカテゴリについてより予測が可能です。

この証拠は興味深い理論を示しています…

リサイクル仮説

著者たちは、ImageNet-22Kのような大規模なデータセットでモデルをトレーニングする際、画像の意味を失うことなく破棄できる低情報パッチを特定する学習を行うと提唱しています。

モデルはそのパッチの埋め込みを一時的なグローバル情報の格納に再利用し、関連性のないローカルな詳細を破棄します。これにより効率的な内部特徴処理が可能になります。

しかし、このリサイクルは望ましくない副作用を引き起こします:

  • 密なセグメンテーションなどの密集タスクにおける元のパッチの詳細の喪失
  • 解釈が困難なスパイキーな注視マップ
  • オブジェクトの発見方法との非互換性

したがって、この動作は自然に生じるものですが、否定的な結果をもたらします。

明示的レジスタを使用してViTsの修正

再利用されたパッチを軽減するために、研究者はシーケンスに「レジスタ」トークンを追加してモデルに専用のストレージを与えることを提案しています。

これにより、内部の計算のための一時的なスクラッチスペースが提供され、ランダムなパッチの埋め込みの乗っ取りを防ぎます。

レジスタを使用した結果、モデルは画像の主題により注力します!論文から。

驚くべきことに、この単純な調整は非常に効果的です。レジスタでトレーニングされたモデルは次のような特徴を示します:

  • より滑らかで意味のある注視マップ
  • さまざまなベンチマークでのわずかな性能向上
  • 大幅に改善されたオブジェクト探索能力

レジスタはリサイクルメカニズムに適切な場所を与え、その嫌な副作用を排除します。わずかなアーキテクチャの変更で顕著な利益が得られるのです。

主要なポイント

この興味深い研究はいくつかの貴重な知見を提供しています:

  • ビジョン変換モデルは、ストレージ用にパッチを再利用するという予期しない振る舞いを示します
  • レジスタを追加することで、意図しない副作用を防ぐ一時的なスクラッチスペースが提供されます
  • この単純な修正により注視マップとダウンストリームのパフォーマンスが向上します
  • 調査すべき他の未発見のモデルのアーティファクトが存在する可能性があります

ニューラルネットワークのブラックボックスをのぞいてみることで、内部の仕組みについて多くのことが明らかになり、徐々にトランスフォーマーの機能が向上していきます。

ビジョン変換の進歩の速さは停滞する気配がありません。私たちはエキサイティングな時代を生きています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「メタのLlama 2の力を明らかにする:創発型AIの飛躍?」

この記事では、Metaが新しくリリースしたLlama 2の技術的な詳細と意義について探求しますLlama 2は、生成型AIの分野を革新す...

人工知能

「2023年のトップAI画像から動画を生成するツール」

Genmo Genmoは、テキストをページの二次元以上に超えるビジュアル形式に変換する、人工知能によるビデオ生成システムです。自...

機械学習

「人工知能と気候変動」

「多くの場合、私たちは気候変動に関連付けられた雑誌やニュースの天候エピソードを見たり、聞いたり、読んだりしますが、す...

データサイエンス

PageRankによる大規模グラフの分析

ランキングは機械学習において重要な問題です与えられたドキュメントの集合に対して、特定の基準に基づいてそれらを特定の順...

機械学習

「OceanBaseを使用して、ゼロからLangchainの代替を作成する」

「オーシャンベースとAIの統合からモデルのトレーニングやチャットボットの作成まで、興味深い旅を通じてこのトピックを探求...

AI研究

腫瘍の起源の解読:MITとDana-Farber研究者が機械学習を活用して遺伝子配列を分析する方法

MITとDana-Farber Cancer Instituteの画期的な共同研究により、機械学習の力ががん治療における困難な課題に取り組むために活...