「MLを学ぶ勇気:L1とL2の正則化の解明(パート1)」

「美容とファッションの世界:鮮やかな興奮をオファーする美とファッションの専門家」

L1とL2正規化の基本目的を理解する

UnsplashでHolly Mandarichによる写真

「勇気を持ってMLを学ぶ」へようこそ。ここでは、L1とL2正規化の探求をスタートします。このシリーズでは、複雑な機械学習の概念を緩やかで分かりやすい対話形式で紹介しています。「言いたいことをぶっちゃける勇気」のように、MLに焦点を当てた形での展開となります。

これらのQ&Aセッションは、私自身の学習の過程の一環であり、皆さんと共有することに興奮しています。これは、私が機械学習の深淵に足を踏み入れる旅を記録したブログのようなものです。皆さんのインタラクション(いいね、コメント、フォロー)は、単なるサポートを超えて、このシリーズの継続と私の情報共有の動機となります。

本日のディスカッションは、単にL1とL2正規化の式や特性をレビューする以上のものです。私たちは機械学習でこれらの方法が使用される核心的な理由に深く立ち入っていきます。これらの概念を本当に理解したい場合は、洞察にあふれる本記事の場所にいます!

この記事では、以下の質問に答えます:

  • 正規化とは何か?なぜ必要なのか?
  • L1とL2の正規化とは何か?
  • なぜ大きな係数よりも小さな係数を好むのか?大きな係数はモデルの複雑さを増加させる要素となるのか?
  • ニューラルネットワークでは、なぜ複数の重みとバイアスの組み合わせが存在するのか?
  • L1とL2正規化ではなぜバイアス項にペナルティが課せられないのか?

正規化とは何か?なぜ必要なのか?

正規化は機械学習での重要な技術であり、モデルの過学習を防ぐために設計されています。過学習は、モデルが訓練データの潜在的なパターン(信号)から学習するだけでなく、ノイズも拾って増幅させる場合に起こります。これにより、訓練データでは良い性能を発揮するが未知のデータでは性能が低下するモデルが生まれます。

L1とL2正規化とは何か?

過学習を防ぐ方法はいくつかありますが、L1とL2正規化は主にモデルの損失関数に係数に対するペナルティ項を追加することで、過学習に対処します。このペナルティは、モデルがある特徴にあまりにも重要性を付けすぎないようにするため、モデルを簡素化します。要するに、正規化はモデルをバランスの取れた状態に保ち、真の信号に焦点を当て、未知のデータへの一般化能力を向上させる役割を果たします。

待ってください、なぜモデル内の大きな重みにペナルティを課すのですか?大きな係数はモデルの複雑さを増加させる要素となるのですか?

損失関数を最小化するためには、多くの組み合わせが存在しますが、それらが全て一般化の観点で同じく優れているわけではありません。大きな係数は、データの有用な情報(信号)と不要なノイズを両方増幅させる傾向があります。この増幅は、モデルを入力のわずかな変化に敏感にし、ノイズに過度に重点を置いた学習を引き起こします。その結果、新しい見知らぬデータでの性能が低下します。

一方、小さな係数は、データのより重要な広範なパターンに注目させることで、モデルがより平穏になり、軽微な変動に対する感度を低下させます。このアプローチは、モデルのバランスを促進し、一般化能力をより効果的にしまいます。

例えば、ニューラルネットワークが猫の体重を予測するために訓練されているとします。あるモデルの係数が10であり、別のモデルの係数が1000という大きなものである場合、次の層での出力は大きく異なります。前者は300であり、後者は30000です。係数が大きいモデルは、極端な予測をする傾向があります。猫にとっては非常に異常な30ポンドの外れ値の場合、係数が大きいモデルの方が正確性が低下します。この例は、極端な応答を外れ値に対して示さないために、係数を適度に制御することの重要性を示しています。

ニューラルネットワークにはなぜ複数の組み合わせの重みとバイアスがあるのか、詳しく説明していただけますか?

ニューラルネットワークの損失関数を辿ると、最低点や「極小値」と呼ばれる地点を見つけることがミッションです。以下に、遭遇する可能性のあるものを想像してみてください。

写真:Tamas Tuzes-KataiさんのUnsplashより
  • 複数の目的地の風景:この風景を進んでいくと、多くのくぼみや谷がある凸でない地形のような様々な局所極小値が存在することに気付くでしょう。これは、複数の隠れ層を持つニューラルネットワークの損失関数が本質的に凸でないためです。各局所極小値は、異なる重みとバイアスの組み合わせを表し、複数の可能な解を提供します。
  • 同じ目的地への様々な経路:ネットワークの非線形活性化関数により、実データの真の基本関数に近似する複雑なパターンを形成することができます。これらの関数の複数の層を持つことで、同じ真理を表現するための数多くの方法があります。それぞれの方法は異なる重みとバイアスのセットによって特徴付けられます。これがネットワーク設計の冗長性です。
  • 順序の柔軟性:自転車とバスの順序を入れ替えるような旅の順序を想像してくださいが、それでも同じ目的地に到着するとします。これを2つの隠れ層を持つニューラルネットワークに関連づけると、最初の層の重みとバイアスを倍増させ、次の層では半分にすると、最終的な出力は変わりません。(ただし、この柔軟性はReLUなどの一部の線形的な特性を持つ活性化関数にのみ適用されることに注意してください)。この現象はニューラルネットワークにおける「スケール対称性」として言及されます。

L1正則化とL2正則化について読んでいて、ペナルティ項が主に重みに焦点を当てていることに気付きましたが、なぜでしょうか?バイアスもペナルティを受ける可能性のある係数ですよね?

出典 — http://laid.delanover.com/difference-between-l1-and-l2-regularization-implementation-and-visualization-in-tensorflow/

要するに、L1やL2などの正則化技術の主な目的は、過学習を防ぐためにモデルの重みの大きさを調整することです(個人的にはそれが正則化と呼ばれる理由だと思います)。逆に、バイアスはモデルの複雑さに比較的控えめな影響を与えるため、それらにペナルティを科す必要性は通常ありません。

よりよく理解するために、重みとバイアスがどのような役割を果たすか見てみましょう。重みはモデル内の各特徴の重要性を決定し、高次元空間における決定境界の形状や複雑さに影響を与えます。それは、モデルの意思決定プロセスの形状を微調整するツマミのようなもので、モデルの複雑さを左右します。

しかし、バイアスは異なる目的を果たします。それは線形関数における切片のような役割を果たし、入力特徴から独立にモデルの出力をシフトさせます。

ここからの重要なポイントは、過学習は主に特徴間の複雑な相互作用によって引き起こされ、この相互作用は主に重みによって処理されるということです。そのため、重みにペナルティを与え、各特徴の重要性やモデルがそれらから抽出する情報量を調整します。これにより、モデルの風景が変わり、その複雑さも変化します。

逆に、バイアスはモデルの複雑さにほとんど貢献しません。さらに、重みが変わるにつれて適応するため、別々のバイアス制裁の必要性を減らします。

複数の重みとバイアスの存在、およびより小さいものの好まれ方についての洞察を得たので、さらに深く掘り下げていきましょう。

シリーズの第二部に参加してください。L1とL2正則化背後の層を解明し、ラグランジュ乗数による直感的な理解を提供します(名前のことは心配しないでください、それはわかりやすい概念です 😃)

では、そこでお会いしましょう!

もし記事が気に入ったら、LinkedInで私に会えますので、ご質問や提案があればどうぞお気軽に連絡してください!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more