「CMU研究者がニューラルネットワークの挙動における重尾データとネットワークの深層との相互作用が最適化ダイナミクスの形成に与える重要な洞察を発見」

「CMU研究者の発見:ニューラルネットワークの深層と重尾データの相互作用が最適化ダイナミクスに与える重要な洞察」

ニューラルネットワーク(NN)の最適化の興味深い性質が次第に増えてきており、これらは最適化の古典的な手法では説明が難しいものです。同様に、研究チームは各性質の力学的な原因についての理解度が異なります。AdamやBatch Normalizationなどの効果的なトレーニングツールについては、多くの努力が行われており、それらの効果を説明するための可能性のある説明が提案されていますが、その証拠は一部にしか説得力がなく、理論的な理解はほとんどありません。グロッキングや安定性の限界などの他の発見は、即座の実用的な示唆を持っていないかもしれませんが、NNの最適化の特徴を研究する新しい方法を提供しています。これらの現象は通常単独で考慮されますが、完全に異なるものとは言えず、それらが共有する具体的な原因はわかっていません。特定の文脈でのNNのトレーニングダイナミクスに関するより良い理解は、アルゴリズムの改善につながる可能性があります。そのため、共通点はさらなる調査のための貴重なツールとなるでしょう。

この研究では、カーネギーメロン大学の研究チームがNN最適化における現象を特定し、これまでの観察に新たな視点を提供することを目指しています。研究チームは完全な説明を提供することを主張していませんが、高いレベルのアイデアに対して強力な定性的および定量的な証拠を提示し、既存の複数の説明に自然に適合し、起源のより一貫した絵を示唆しています。具体的には、研究チームは自然データにおけるペアグループの外れ値の存在を示し、これがネットワークの最適化ダイナミクスに大きな影響を与えることを示しています。これらのグループには、初期化時およびトレーニングのほとんどの段階でネットワークの出力を支配する相対的に大きな特徴が含まれています。これらの特徴のもう一つの特徴は、大きく一貫した逆勾配を提供することです。つまり、一方のグループの損失を減少させるためにそのグループの勾配に従うと、他のグループの損失が同様の量だけ増加します。この構造のため、研究チームはこれらを「対立信号」と呼んでいます。これらの特徴は、目標タスクと非自明な相関関係を共有していますが、通常は「正しい」(例:人間の揃った)信号ではありません。

多くの場合、これらの特徴は「相関と因果関係のジレンマ」を完璧に具体化しています。たとえば、明るい青い空の背景はCIFARの画像のラベルを決定するものではありませんが、ほとんどの場合は飛行機の画像に現れます。その他の特徴としては、トラックや車の画像におけるホイールやヘッドライトの存在、または書かれたテキストにおけるコロンの後には「the」または改行トークンが続くという点などがあります。図1はCIFAR-10でGDを使用してトレーニングしたResNet-18のトレーニング損失と、一部の主要な外れ値グループとそれらの損失を示しています。

図1:対立する信号を持つ外れ値は、ニューラルネットワークのトレーニングダイナミクスに重要な影響を与えます。さらに、GDを使用してCIFAR-10でトレーニングしたResNet-18のトータルロスを持つ一部の代表的な外れ値グループのロスが表示されています。これらのグループは一貫して矛盾した信号を示し(例えば、ホイールとヘッドライトはトラックや車を示唆することがあります)、これらのグループのロスはトレーニングの間に振動し、全体的なロスの突発的なスパイクに対応しており、安定性現象の根本的な原因のようです。

トレーニングの初期段階では、ネットワークは重み空間の狭い谷に入り、対立するグループの勾配を慎重にバランスさせますが、損失のランドスケープのシャープ化により、ネットワークは特定の軸に沿って成長する振幅の大きな振動をするようになり、このバランスが崩れます。空の背景の例に戻ると、あるステップでは、全てのスカイ画像においてクラス「飛行機」により高い確率が与えられ、次のステップでその効果が反転します。要するに、「空=飛行機」のサブネットワークが成長して収縮します。この振動の直接の結果は、スカイが背景にある飛行機の画像におけるネットワークの損失が急激に増加して減少することと、スカイを持たない非飛行機の画像における反対の効果が起こることです。その結果、これらのグループの勾配は方向を交互に変えながら、大きさも増加します。これらのペアはデータの一部を表しているため、この動作は全体のトレーニング損失からはすぐにはわかりませんが、最終的にはトレーニングの進行に伴い、広範な損失のスパイクにつながります。

これらの2つのイベント間には明らかな直接的な対応関係がありますので、研究チームは対立するシグナルが安定性の境界現象を直接引き起こすと推測しています。研究チームはまた、最も影響を与えるシグナルは時間とともに複雑さを増していくようです。研究チームは、視覚アーキテクチャとトレーニングのハイパーパラメータの範囲にわたってこの実験を繰り返しました。正確なグループとその出現順序は変化しますが、パターンは一貫して現れます。研究チームはまた、自然なテキストの次のトークン予測におけるトランスフォーマーと、単純な1D関数に対する小規模なReLU MLPについてもこの動作を検証しました。ただし、研究チームは最も明確な直感を提供するためにイメージを使用しています。彼らの実験のほとんどはこの効果を分離するためにGDを使用しますが、研究チームはSGDでも類似のパターンを観察しました。本論文の主な貢献は、NN最適化中における対立するシグナルの存在、普及性、および大きな影響を示すことです。

さらに、研究チームは、これらのシグナルが観察されるトレーニングダイナミクスの原因についての彼らの現在の最良理解を、支持する実験と共に提示しています。特に、研究チームは深さと最急降下法の方法に起因するものであるという証拠を提供しています。研究チームは、おもちゃの例と簡単なモデル上の2層線形ネットの分析を交えながら、この議論を補完しています。特筆すべきことに、初歩的ではありますが、彼らの説明によってトレーニング中のNNの振る舞いに関する具体的な定性的予測が可能になります。これは、研究チームが実験的に確認しています。また、これはSGDとAdamの比較を通じて研究チームがハイライトした、現代の確率的最適化手法を研究する新しいレンズを提供します。研究チームは、対立するシグナルとさまざまなNN最適化および一般化現象との可能性の接続を見ています。これには、理解、投射/弾き出し、単純さのバイアス、二重降下、およびシャープネス認識最適化などが含まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more