学ぶための勇気： L1＆L2正則化の解明（パート3）

学ぶための勇気：L1＆L2正則化の解明（パート3）

なぜL0.5、L3、およびL4正則化は一般的ではないのか

‘Courage to Learn ML: L1＆L2正則化の謎を解明する’ の第3回目へようこそ。以前、正則化の目的および Lagrange乗数を通じたL1およびL2メソッドの解明を深く掘り下げました。

旅を続ける中で、私たちのメンターと学習者の二人組は、L1およびL2正則化をLagrange乗数を使用してさらに探求します。

この記事では、あなたの心にささる興味深い質問に取り組みます。もしこれらのトピックについて混乱している場合は、正しい場所にいます：

L0.5正則化が存在しない理由は何ですか？
ほとんどのディープラーニング問題が非凸問題であることを考慮すると、なぜ問題が非凸であるか気にする必要がありますか？
L3およびL4のようなノルムは一般的に使用されない理由は何ですか？
L1およびL2正則化は組み合わせることができますか？その場合の利点と欠点は何ですか？

前回の議論に基づいて質問があります。Lpノルムの場合、pの値は0より大きい任意の数にすることができると確認しました。なぜ0から1の範囲のpは使用しないのですか？L0.5正則化が存在しない理由は何ですか？

この質問を提起してくれてうれしいです。単刀直入に言いますと、通常、1未満のp値は非凸最適化問題を引き起こすため避ける傾向があります。さまざまなp値に対するLpノルムの形状を示す画像でこれを説明しましょう。特に、p=0.5の場合、形状ははっきりと非凸です。

さまざまなp値に対するLpノルムの形状。出典: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB

これは、3つの重みを最適化していると仮定した場合の3D表現でさらに明確になります。この場合、問題が非凸であることがはっきりとし、数多くの局所最小値が境界上に現れます。

Source: https://ekamperi.github.io/images/lp_norms_3d.png — ソース: https://ekamperi.github.io/images/lp_norms_3d.png

機械学習において通常非凸問題を避ける理由は、その複雑さです。凸問題では、グローバル最小値が保証されるため、一般に解決が容易です。一方、非凸問題は複数の局所最小値を持つことがあり、計算量が多く予測不可能な場合があります。MLで回避しようとするのはまさにこのような課題です。

ラグランジュ乗数法などのテクニックを使用して関数を最適化するとき、制約が凸関数であることが重要です。これにより、元の問題の基本的な特性が変化せず、解決が困難になることがありません。 この側面は非常に重要です。さもないと、制約を追加することで元の問題がより困難になる可能性があります。

なぜここで問題や制約が非凸問題であるか気になるのですか？ほとんどの深層学習の問題は非凸問題ではありませんか？

あなたの質問は、深層学習の興味深い側面に触れています。非凸問題を好むわけではありませんが、深層学習の領域ではしばしばそれらと向き合わなければならないと言えます。その理由は次のとおりです。

深層学習モデルの性質により、非凸損失面が生じる：特に隠れ層を持つニューラルネットワークを含むほとんどの深層学習モデルは、本質的に非凸損失関数を持っています。これは、これらのモデル内で発生する複雑な非線形変換によるものです。これらの非線形性とパラメータ空間の高次元性の組み合わせは、通常非凸な損失面をもたらします。
局所最小値は深層学習では問題ではなくなっています：深層学習で一般的な高次元空間では、局所最小値は低次元空間よりも問題ではありません。研究によると、深層学習の多くの局所最小値はグローバル最小値にほぼ等しい値に近いです。さらに、勾配がゼロであるが最大でも最小でもない点であるサドルポイントは、このような空間ではより一般的であり、大きな課題となります。
非凸空間に対してより効果的な高度な最適化技術が存在します。 高度な最適化技術、例えば確率的勾配降下法（SGD）など、非凸空間で良い解を見つけるために特に効果的です。これらの解は、必ずしもグローバル最小値ではないかもしれませんが、実用上のタスクで高いパフォーマンスを達成するのに十分な場合が多いです。

深層学習モデルは非凸であるにもかかわらず、大規模なデータセットで複雑なパターンと関係性を捉えるのに優れています。さらに、非凸関数に関する研究は着実に進んでおり、我々の理解を深めています。今後、非凸問題をより効率的に、より少ない心配事を持って処理する可能性があります。

正則化にL3やL4のような高次のノルムを使用しないのはなぜですか？

先に議論したLpノルムの形状を思い出してください。pが増加するにつれて、Lpノルムの形状は変化します。たとえば、p = 3の場合、それは角の丸い正方形に似ており、pが無限大に近づくと完全な正方形になります。

The shape of Lp norms for different p value. Source: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB — 異なるp値に対するLpノルムの形状。ソース： https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB

最適化問題の文脈では、L3やL4のような高次の正則化を考えてみましょう。L2正則化と同様に、損失関数と制約の等高線が丸みを帯びたエッジで交差すると、これらの高次の正則化も重みを0に近似させるように促します。L2正則化と同様です。（この部分がわかりにくい場合は、「Part 2」を詳しい説明のために再訪してください。）この文に基づいて、L3およびL4の正規化が一般的に使用されない2つの重要な理由について話すことができます：

L3およびL4の正規化は、L2と同様の効果を示しますが、重要な新しい利点（重みを0に近づける）を提供しません。それに対して、L1正則化は重みを0にすることで疎性を導入し、特徴選択に役立ちます。
計算の複雑さも重要な要素です。正則化は最適化プロセスの複雑さに影響を与えます。L3およびL4の正規化はL2よりも計算量が多く、ほとんどの機械学習アプリケーションでは実用的ではありません。

まとめると、L3およびL4の正規化は理論的には使用可能ですが、L1やL2の正規化と比べて独自の利点を提供せず、計算上の効率の低さから実用的な選択肢とは言えません。

L1とL2の正則化を組み合わせることは可能ですか？

はい、実際にはL1とL2の正則化を組み合わせることが可能です。これはElastic Net正則化としてよく言及される技術です。この手法はL1（ラッソ）とL2（リッジ）の正則化の特性を組み合わせ、チャレンジングな場面で有用です。

Elastic Net正則化は、L1正則化とL2正則化の項の線形結合です。損失関数にL1正則化とL2正則化の両方のノルムを追加します。したがって、調整する必要のある2つのパラメータ（lambda1とlambda2）があります。

Elastic Net regularization. Source: https://wikimedia.org/api/rest_v1/media/math/render/svg/a66c7bfcf201d515eb71dd0aed5c8553ce990b6e — Elastic Net正則化。出典：https://wikimedia.org/api/rest_v1/media/math/render/svg/a66c7bfcf201d515eb71dd0aed5c8553ce990b6e

Elastic Net正則化の利点は何ですか？もしそうなら、なぜそれをより頻繁に使用しないのですか？

両方の正則化手法を組み合わせることで、Elastic Netはモデルの一般化能力を向上させ、L1またはL2だけを使用するよりも過学習のリスクをより効果的に低減させることができます。

その利点を具体的に見てみましょう：

Elastic NetはL1よりも安定性を提供します。 L1正則化は疎なモデルを作成することがあり、特徴選択に役立ちます。しかし、特定の状況では不安定となることもあります。例えば、L1正則化は高い相関を持つ変数の中から特徴を任意に選択することができます（他の変数の係数は0になります）。一方、Elastic Netはこれらの変数に重みをより均等に分散させることができます。
L1正則化よりもL2は安定性が増しますが、疎性は促進しません。 Elastic Netはこれらの2つの側面をバランスさせることを目指しており、より堅牢なモデルにつながる可能性があります。

しかし、Elastic Net正則化は入念な調整を必要とする追加のハイパーパラメータを導入します。L1とL2の正則化のバランスと最適なモデルパフォーマンスを達成するためには、計算量も増えます。この追加の複雑さのため、Elastic Netは頻繁に使用されないのです。

次回のセッションでは、L1とL2の正則化を全く新しい視点から探求し、ベイズの事前信念の領域に深めていきます。ここで一旦休憩しましょう – 次のディスカッションを楽しみにしています！

このシリーズの他の投稿：

もし記事が気に入ったら、私にLinkedInで見つけることができます。

参照：

イテレーションソフトスレッショルディングによる弾性ネット正則化

正則化の紹介

シーケンス機械学習の一部先行記事: バイアス対分散、勾配降下法の内容: 1100ワード、11分…

kevinbinz.com

ノルムと機械学習

一般的な機械学習と最適化におけるノルムの紹介、特にLASSOとリッジ回帰を強調。

ekamperi.github.io

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Courage To Learn MlData scienceData Scientist InterviewDeep learningMachine learning

Was this article helpful?

93 out of 132 found this helpful