「ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from a Google DeepMind Research Paper」 ビジョン・トランスフォーマーにおけるReLU vs. Softmax:シーケンスの長さは重要か?Google DeepMindの研究論文からの洞察

ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from Google DeepMind's Research Paper

今日一般的な機械学習アーキテクチャは、トランスフォーマーアーキテクチャです。トランスフォーマーの主要なパーツの1つであるアテンションは、トークン全体にわたる確率分布を生成するソフトマックスを持っています。ソフトマックスは、指数計算とシーケンスの長さの合計による計算量のため、並列化が困難です。この研究では、確率分布を常に提供しないポイントワイズのソフトマックスの代替手法について調査しています。特筆すべき発見の1つは、ビジュアルトランスフォーマーの場合、ReLUによるシーケンスの長さで分割されたアテンションのスケーリング動作が、クラシックなソフトマックスアテンションとほぼ同等または一致することです。

この発見により、ReLU-アテンションはシーケンスの長さ次元に沿って標準のアテンションよりも容易に並列化できる新たな可能性が開かれました。以前の研究では、ReLUまたは二乗ReLUがソフトマックスの代替手法として考慮されてきました。ただし、これらの手法はシーケンスの長さで分割されていないため、Google DeepMindの研究者によれば、ソフトマックスと同等の精度を達成するためにはこれが重要です。さらに、以前の研究では、ソフトマックスの役割を果たすことが考慮されており、シーケンスの長さの軸方向での正規化は依然として必要ですが、これにはギャザリングが必要です。さらに、アテンションを線形にするために活性化関数を排除する研究が豊富にあり、これは長いシーケンスの期間に有利です。

彼らの研究では、活性化が完全に除外されると精度が低下しました。彼らのテストは、ハイパーパラメータを変更せずに、BigVisionソースのImageNet-21kおよびImageNet-1kのトレーニング設定を使用しています。ImageNet-21kでは30エポック、ImageNet-1kでは300エポックトレーニングします。その結果、両方のトレーニング実行には約9e5ステップかかります。これは以前の研究でモデルサイズのスケーリング時の不安定性を避けるために必要であることが判明しているため、彼らはqkレイヤーの正規化を持つViTsを使用します。彼らは、これが彼らのスケールにおいて重要な要素ではないと結論づけています。

彼らは、ファインチューニングせずにImageNet-1k内のトップクラスのみを取ることによって、ImageNet-21kモデルのImageNet-1k精度を報告しています。彼らは、転送パフォーマンスを評価するために、3つのシードで平均化された10ショットのリニアプローブを使用します。転送先のタスクには、Caltech Birds、Caltech101、Stanford Cars、CIFAR-100、DTD、ColHsit、Pets、およびUC Mercedがあります。この研究は、多くの未解決の問題を提起しています。なぜ因子L^(-1)がパフォーマンスを向上させるのか、またはこの概念を学習できるかを彼らは発見しなければなりません。さらに、彼らが調査していないより効果的な活性化関数があるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「トップAIベースのアートインペインティングツール」

人工知能の画像インペインティングは、損傷したり欠落した詳細を復元するためのコンピュータビジョンの手法です。古くなった...

AIニュース

JEN-1に会ってください:テキストまたは音楽表現に応じて条件付けられた高品質な音楽を生成するために、双方向および単方向のモードを組み合わせたユニバーサルAIフレームワーク

音楽は、ヘンリー・ワズワース・ロングフェローによって「人間の普遍的な言語」として讃えられ、調和、メロディ、リズムの本...

機械学習

「ニューラルネットワークの多様性の力を解き放つ:適応ニューロンが画像分類と非線形回帰で均一性を上回る方法」

ニューラルネットワークは、人間の脳に触発された方法でデータを処理するための人工知能の手法です。ニューラルネットワーク...

機械学習

「リアルAI社が、ヨーロッパのオープンソースの大規模言語モデルの構築プロジェクトに勝利」

2023年11月23日(木)、ベルグラードで開催されたデータサイエンスカンファレンス2023で、Real AIがISCRAプロジェクトを受賞...

AI研究

「IBMの研究者たちは、モダリティやタスクに関係なくAIシステム向けの敵対的な入力を生成することが可能な新しい敵対的攻撃フレームワークを提案しています」

人工知能の常に進化する風景の中で、新たな懸念が浮かび上がってきました。AIモデルの脆弱性に対する逃避攻撃への対処です。...

データサイエンス

オムニヴォアに会ってください:産業デザイナーがアートとOpenUSDを組み合わせて、AIトレーニング用の3Dアセットを作成します

編集者注:この投稿は、NVIDIA OmniverseとOpenUSDを使用して3Dワークフローを加速し、仮想世界を作成する個々のクリエイター...