マシンラーニングにおける線形回帰の幾何学的解釈と古典統計学との比較

マシンラーニングにおける線形回帰の幾何学的解釈と古典統計学の比較について

直観的かつ解析的に線形回帰の混乱を解き明かす

Image: Linear regression illustration, by Stpasha, via Wikimedia Commons (Public Domain). Original Image Link: https://upload.wikimedia.org/wikipedia/commons/8/87/OLS_geometric_interpretation.svg — 画像：線形回帰のイラスト、Stpashaによる、ウィキメディア・コモンズ（パブリックドメイン）。オリジナル画像リンク：https://upload.wikimedia.org/wikipedia/commons/8/87/OLS_geometric_interpretation.svg

上記の画像は、最小二乗法（OLS）または線形回帰（古典的統計では交換可能に使用される言葉）の幾何学的な解釈を表しています。直感的な方法で見ていきましょう。

変数（X1とX2）： 2つの変数、X1とX2を想像してみてください。これは、あなたが勉強する時間と練習試験の回数など、何かを表すことができます。
データポイント（y）： あなたが予測しようとしている結果、つまり「y」と呼ばれるものがあります。この例では、実際の試験のスコアなどです。
平面（colX）： この平面は、変数X1とX2の異なる量を組み合わせることによって得られるすべての予測値を表します。この例では、勉強時間と練習試験の異なる量に基づいて予測される可能性のあるすべての試験のスコアを表すことができます。
推定係数（Beta1とBeta2）： これはOLS法が各変数がスコアにどれだけ影響を与えるかを最も良く推測する値です。したがって、Beta 1は追加の勉強時間ごとにスコアがどれだけ上昇するかを示し、Beta 2は追加の練習試験ごとにスコアがどれだけ上昇するかを示すかもしれません。
予測ポイント（XB^）： これは推定係数を使用して予測されたスコアです。OLSからの推定値を使用して、変数X1とX2の組み合わせであり、平面上に存在します。
実際のポイント（y）： これは実際の試験のスコアです。
誤差（ε）： これは実際のスコアと予測スコアの差です。つまり、予測が現実とどれだけずれていたかを表しています。

では、OLSはこれらすべてとどのように関連しているのでしょうか？

OLSは、X1とX2（勉強時間と練習試験）を使用して「y」（試験のスコア）を予測する際に、誤差（ε）がすべてのデータポイントに対して可能な限り小さくなるように、Beta1とBeta 2の値を見つけようとします。図では、垂直の点線（誤差を表す）が共に最も短くなるように平面を調整するようなイメージです。実際のデータポイント（y）から平面（colX）までの最短距離は、常に平面に垂直な直線です。OLSは、これらの垂直距離がすべてのポイントで最小化される特定の平面を見つけます。

言い換えれば、OLSは、現実の点すべてを通過することはほとんどないことを認識しながら、平面を実際のスコアにできるだけ近づけようとします。

これは、鉛筆の点の散らばりの下に最も適した紙をぴったりと敷き詰めるようなものです。

OLSの主な仮定を復習し、上記のイメージと結びつけましょう。

1. 線形性

仮定：独立変数（X1、X2）と従属変数（y）の関係は線形です。

イメージの解釈：画像の中で、これがX1とX2の組み合わせを表すために平面（colX）を使用する理由です。関係が線形でなければ、平面で表すことはできず、曲線や他の形になるでしょう。

2. 独立性

仮定: 観測値は互いに独立しています。

視覚的な解釈: 各データポイント（観測の表現）は他のデータポイントと独立してプロットされます。もし依存性があれば、誤差（ε）に系統的なパターンが見られるでしょう。例えば、すべての誤差が平面の一方にあるようなパターンです。これは一つのデータポイントの位置が他のデータポイントを予測することができることを示しており、この仮定を破っています。

3. 等分散性

仮定: 誤差項（ε）の分散は独立変数のすべてのレベルで一定です。

視覚的な解釈: 理想的には、実際のデータポイント（y）から予測平面（colX）への垂直距離は均等に散らばっているはずです。この距離にファネル状やパターンがないはずです。距離はランダムに見えるはずです。もしエラーがX1やX2の増加とともに大きくなったり小さくなったりすると、これは等分散性の仮定に反します。

4. 完全な多重共線性なし

仮定: 独立変数は互いに完全に相関していません。

視覚的な解釈: 図では、X1とX2は異なる方向を示す2本の矢印で表されています。もし完全に相関しているとすると、それらはまったく同じ方向を示すでしょう。そして、平面ではなく直線が得られます。これによってX1とX2がyに与える個別の影響を推定することが不可能になります。

5. 自己相関なし

仮定: 誤差項は互いに相関していません。

視覚的な解釈: この仮定は誤差項に関するもので、画像では明示的に表示されていませんが、各誤差項（ε）はランダムで前後の誤差項に影響を受けないと推測されます。もしパターンがある場合（例えば、ある誤差が常に似たような大きさの他の誤差に続く場合）、自己相関が疑われます。

6. 外生性

仮定: 誤差項の期待値はゼロです。

視覚的な解釈: これは平面が配置されるべきことを意味します。平均して、エラーは相殺しあいます。いくつかのデータポイントは平面より上に、いくつかは下にありますが、すべてのデータポイントが上または下になるような系統的なバイアスはありません。

7. 誤差の正規性（しばしば仮説検定のための仮定）

仮定: 誤差項は正規分布しています。

視覚的な解釈: 正規性の仮定はデータとモデルの3Dプロットでは視覚化できませんが、誤差項のヒストグラムを見ると、正規分布のベルカーブが見られると予想されます。

機械学習の線形回帰と古典的統計の最小二乗法に基づく線形回帰の違いは何ですか？

古典的統計では、最小二乗法（OLS）は最尤推定（MLE）の視点からアプローチされることがあります。MLEとOLSは共にモデルの最適なパラメータを見つけることを目指していますが、異なる哲学から来ており、異なる手法を使用しています。

最尤推定（MLE）アプローチ: MLEは確率に基づいています。これは次の問いに答えます。「一連のデータポイントが与えられた場合、このデータを生成したモデルの最も可能性の高いパラメータは何ですか？」MLEは誤差の特定の確率分布を仮定し、実際のデータの観測の尤度を最大化するパラメータ値を見つけます。幾何学的な視覚化では、これは平面（colX）の角度と位置を調整し、実際のデータポイント（y）の観測の確率が最も高くなるようにすることに似ています。尤度は、データポイントから平面（誤差）までの距離だけでなく、誤差分布の形状も考慮に入れます。

機械学習における目的関数の最小化（ML）: 一方、機械学習のアプローチでは通常、回帰を最適化問題として定義します。目標は、いくつかの目的関数を最小化するパラメータを見つけることです。通常、その目的関数は二乗誤差の合計（SSE）です。これはMLEよりも直接的なアプローチであり、誤差の基になる確率分布についてあまり多くの仮定をしません。このアプローチでは、データポイントから予測平面までの距離を二乗で最小にすることを試みます。幾何学的な解釈では、実際のポイント（y）から平面までの垂直距離（点線）の二乗和を最小化するために、平面（colX）を傾けたり移動させたりします。

比較:OLSの場合、手続きは異なりますが、確率ベースの手法と最適化手法のどちらも同じ結果をよく生み出します。これは、誤差が正規分布している場合、線形モデルの係数のMLEが二乗誤差の最小化と同じ方程式に導くためです。視覚的には、両方の方法は変数X1とX2の空間に同じ平面を適切に配置し、yとの関係を最もよく示すように試みています。

主な違いは解釈と一般化の可能性にあります。MLEの枠組みは、誤差構造のモデリングにより柔軟性を持たせることができ、誤差が正規分布であると仮定されていないモデルに拡張することができます。一方、MLアプローチは通常より直接的で計算的なアルゴリズムであり、潜在的な確率分布には関与せず、二乗誤差の直接的な削減に焦点を当てています。

要約すると、OLS回帰の場合、MLEとMLの最小化アプローチは同じ係数に到達することがありますが、概念的には異なります。MLEは確率的であり、与えられたモデルの下でデータを観測する可能性に基づいていますが、MLの最小化はアルゴリズムであり、誤差の直接的な削減に焦点を当てています。幾何学的な視覚化は両方とも同じですが、平面の位置の背後にある理論は異なります。

ボーナス：上記の解釈に正則化を導入すると何が起こるか？

正則化はモデルの過学習を防ぐための技術であり、モデルが複雑すぎてデータの真の基礎パターンではなくノイズを捉え始めることがあります。いくつかのタイプの正則化がありますが、最も一般的なのは次の2つです：

Lasso回帰（L1正則化）：これは、係数の大きさの絶対値に等しいペナルティを追加します。いくつかの係数をゼロに減らすことができ、実質的な特徴選択を行うことができます。
Ridge回帰（L2正則化）：これは、係数の大きさの2乗に等しいペナルティを追加します。すべての係数が同じ要因で縮小され、ゼロにはなりません。

例えば、（回帰モデルを表す）毛布を（データを表す）ベッドにフィットさせる例を考えましょう。正則化なしのOLSでは、毛布をベッドの表面（誤差）とできるだけ多くの点（データ点）に触れるようにフィットさせようとしています。

今、もしベッドがかなりデコボコで毛布が非常に柔軟性があると想像してください。正則化なしで毛布を完全にフィットさせると、ベッドスプレッドをなめらかにしない小さな凹みまで含めて、すべてのデコボコにピッタリとフィットするかもしれません。これが過学習です。

正則化の導入：

Lasso（L1）の場合：これは、「毛布をよくフィットさせたいが、できるだけ多くの折り目があっては困る」というようなものです。折り目はモデル内の特徴を表し、L1正則化は折り目の数を最小限に抑えることを試みます。最終的にベッドによくフィットする毛布ができますが、ノイズである可能性がある重要でない変数の方向に平面が平らになることがあります（係数をゼロに縮小）。
Ridge（L2）の場合：これは、きつくフィットすることを望む一方で、毛布をベッドからあまり遠く離れないように均等に広げたいというものです。したがって、毛布はまだベッドにぴったりとフィットしていますが、細かいバンプに合わせるために過度に歪ませることはありません。幾何学的な視覚化では、Ridgeは係数を制約するペナルティを追加し、それらをゼロにすることはありません。これにより、平面はデータに近づきますが、特定のポイントに過度に合わせるために急に傾くことを防ぎ、ノイズへの過学習を防ぐために少しの距離（バイアス）を保持します。

正則化による視覚的解釈：正則化が幾何学的な解釈に追加された場合

（colXで表される）平面は以前ほど個々のデータポイント（y）に近い位置にならないかもしれません。正則化は意図的にバイアスを導入します。
平面はより安定し、個々の外れ値に対して過敏に反応しないように、大きな係数の罰則があるため、傾斜した傾向が軽減されます。
ベクトルの長さ（Beta1X1とBeta2X2）は短くなる場合があり、各変数の予測への影響が意図的に制約されていることを反映しています。

本質的に言えば、正則化はトレーニングデータに完全に適合するモデルの能力を少し犠牲にする代わりに、改善されたモデルの汎化性能を得ることです。つまり、トレーニングデータだけでなく、見えないデータでも優れたパフォーマンスを発揮することができるようになります。これは、実際に使用するのに十分なゆるいブランケットのフィットを選ぶことで、すべての輪郭に合わせることができるけれども実用的ではないか、あるいはあまり特定のベッドにしか使えないかもしれないブランケットよりも良いものを選ぶことと似ています。

結論

要約すると、線形回帰の幾何学的解釈は、古典的な統計学と機械学習の間のギャップを埋めるものであり、この基本的な手法の直感的な理解を提供します。古典的な統計学では最小二乗法を通じて線形回帰に取り組み、機械学習では最尤推定または目的関数の最小化を使用することが一般的ですが、どちらの方法も視覚的に理解可能な方法で予測誤差を最小化しようとします。

LassoやRidgeなどの正則化手法の導入により、モデルの正確性と汎化性のバランスがより豊かになります。これらの手法は過学習を防ぎ、モデルが新しい見えないデータに対しても強く有効であることを保証します。

全体的に、この幾何学的な観点は線形回帰をだけでなく、データ分析と機械学習の進化する領域における基礎的な概念の重要性をも明確に示しています。これは、複雑なアルゴリズムが単純でありながらも深遠な幾何学的原理に基づいていることを強く思い起こさせるものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AIData sciencedata visualizationMachine learningStatistics

Was this article helpful?

93 out of 132 found this helpful