ロジスティック回帰のためのワンストップ

美容とファッションのワンストップガイド|ロジスティック回帰の活用

ロジスティック回帰とは何か?なぜ「回帰」と呼ばれるのか?線形なのか?なぜこれほど人気があるのか?そして、対数オッズとは何か?

これらの質問は、ロジスティック回帰を始めるすべての人にとって一般的なものです。私もそれらにつまずいた経験があります。ですので、VoAGIやtowardsdatascienceanalyticsvidhyamachinelearningmasteryなどの様々な記事を読んでみました。ウェブ上のコンテンツはとても良いのですが、トピックをより良く理解するためにこれらのウェブサイトを実際に訪れる必要があります。

そこで、より簡単にするために、必要なロジスティック回帰に関する情報をすべてまとめたこの記事を作成することにしました。

アウトライン:

  • ロジスティック回帰とは何か?
  • なぜ分類に線形回帰を使わないのか
  • シグモイド曲線とロジスティック回帰
  • ロジット関数とプロビット関数
  • 分類に用いるために回帰と呼ばれる理由
  • なぜ線形モデルなのか?
  • 特になぜロジット関数が使われるのか?
  • ロジスティック回帰の損失関数
  • ロジスティック回帰のコスト関数

1. ロジスティック回帰とは何か?

ロジスティック回帰は、分類問題に使用される教師あり学習アルゴリズムです。イベントの発生確率を予測するために開発されました。多くの分類アルゴリズムとは異なり、ロジスティック回帰はイベントの発生確率を予測するのではなく、イベントが起こる(1)か起こらない(0)かの離散的な結果を予測します。ロジスティック回帰は線形回帰方程式関数を変形したものであり、そのためにロジスティック回帰と呼ばれています。

2. なぜ分類にも単純な線形回帰を使わないのか?

単純な線形回帰と、回帰のベストフィットラインについて理解しているとします。次に、問題の説明を考えることで、より良く理解していきましょう。

Q: 学生が勉強した時間に基づいて、合格するかどうかを予測する必要があります。学習時間をx軸、合格確率をy軸として考えると、予測は0(不合格)または1(合格)のいずれかになります。そこで、グラフはy=0またはy=1に沿った点となります。このような問題に回帰モデルを適用する場合、y = ax + bという直線の方程式が以下のようになります。

Linear Regression fit on classification problem

ここで、閾値として5を考えます。この閾値の点(5)は確率0.5であると決めます。したがって、閾値より上の点は1と予測され、閾値より下の点は0と予測されます。このようなモデルは、多くの場合に正しく予測します。例えば、5より下の点は0と予測されるため、4時間勉強した人は不合格(0)と予測され、8時間勉強した人は合格(1)と予測されます。

次に、勉強時間の変化について考えてみましょう。勉強時間が4.5から5.5に変化すると、予測は0(不合格)から1(合格)に変わります。しかし、勉強時間が7から10時間に変化しても、確率は変わりません。つまり、勉強時間の変化が1単位である場合、不合格から合格に変わる確率は前者の場合のほうが圧倒的に高くなります。

  • これは、勉強時間を1時間増やすだけで合格する可能性が高まることを示しています。一方、勉強時間の変化は1単位でありながら、前者の場合の合格する確率が劇的に変化します。

したがって、分類問題に直線フィットを使用すると、マージナルな上昇は一定のように見えます。

  • 線形回帰フィットのもう一つの問題は、直線が1以上または1未満を予測することができるということです。これは直線がデータに強制的にフィットしていることを意味します。1より大きい予測値や1未満の予測値は確率として意味がありません。確率は0から1の間でしか存在しないからです。

したがって、線形回帰モデルは分類問題に強制的にフィットしています。

ここまでのところで、知っておく必要があるのは、直線がモデルに適合しない理由です:

  1. 分類問題に直線フィットを使用すると、マージナルな上昇は一定のように見えます。
  2. 線形回帰モデルは0以下および1以上のポイントを予測し、分類問題に強制フィットしています。

したがって、モデルに適合し、線形モデルの上記の制限をすべて超える曲線が必要です。ここでロジスティック回帰が登場します。

上記の状況に対して考えられる最良のモデルは「Sカーブ」です。

3. Sカーブとは何ですか?

答えは簡単です。Sカーブは単純にSカーブです。以下のような見た目です:

Sカーブ

これらの曲線はシグモイド曲線と呼ばれます。

このようなSカーブを分類問題に適用すると、次のようになります:

分類問題におけるシグモイド関数

この曲線はほぼ完全にデータにフィットします。0から開始し、1で平らになります。

  • 曲線上のデータの微小変化は一定ではありません。非線形なため、予測されるクラス間の良好な補間を提供します。
  • 曲線は0から1までの範囲を取ります(画像からわかるように)。したがって、予測は確率に変換でき(負の値を含まない)、分類に使用できます。
  • したがって、方程式y = ax + bに基づいて回帰線を適合させる代わりに、シグモイド曲線を出力するこの方程式のいくつかの関数に適合させます:f(ax + b)

    シグモイドカーブを出力する多くの関数がありますが、最も一般的なものはロジットおよびプロビット関数カーブです。

    ロジット関数: y = 1/(1+e^-(ax + b))

    プロビット関数: y = ⏀(x)

    プロビット関数は正規分布曲線の累積分布関数です。

    予測に最適なロジット関数を使用してデータによくフィットさせる場合、それをロジスティック回帰と呼びます。

    4. でも、なぜロジット関数についてこのように話しているのですか?

    答えは簡単です- 線形モデル方程式を使用し、堅牢なシグモイドカーブを提供し、微分が容易であるためです。微分が容易であるため、勾配降下法を計算し、コスト関数のグローバル最小値を見つけることが容易になります。

    5. なぜこれを回帰と呼んでいるのですか?

    シグモイドカーブ(Sカーブ)を生成するロジット関数は、線形回帰直線の係数(y = ax + b)を扱うことでSカーブを生成します。

    これは、ロジスティック回帰がバックエンドで線形回帰モデルと同じタスクを実行することを意味します。

    線形回帰に詳しい人々は、アルゴリズムの目的がモデルの係数の値を推定すること、つまり関数Y= b + a₁X₁ + a₂X₂ + a₃X₃ + ….. +aₙXₙのa₁、a₂、a₃、…、bの値を計算し、トレーニングデータを最小の誤差(RMSE、MSEなど)でフィットさせて出力Yを予測することを知っています。

    では、ロジスティック回帰も同じことを裏でやっていますが、少し追加があります。モデルの係数を評価した後、関数(Logit、Probitなど)で実行し、シグモイド曲線を生成してイベントの確率を予測するという手順です。

    ロジスティック回帰モデルは、線形回帰方程式の係数を裏で評価し、それを関数に渡しているため、分類アルゴリズムではなく回帰アルゴリズムと見なされます。

    6. 線形モデル?それとも非線形モデル?

    これは非常によく聞かれる質問で、しばしば混乱します。

    シグモイド曲線は非線形曲線ですが、関数が非線形曲線を持っている場合は非線形であると言えます。しかし、上記の記述に関係なく、ロジスティック回帰は線形モデルと見なされます。これは、ロジット関数を少し再配置することで証明できます。

    両辺に対数を取り、式を再配置すると、次のようになります

    比率y/1-yオッズ比と呼ばれます。これは、イベントが起こる確率(y)とイベントが起こらない確率(1-y)の比率です。方程式の右側を見ると、それは線形関係(ax + b)を形成しています。

    オッズ比の対数はxの線形関数であるため、ロジスティック回帰は線形モデルと呼ばれます。

    しかし、ロジスティック回帰の曲線は非線形であり、したがって予測を司る関数yは非線形ですが、モデル自体は線形です。

    7. ロジスティック回帰の損失関数

    損失関数は、予測の誤差を考慮する関数です。1つのデータポイントに対して行う場合は損失関数と呼ばれ、データセット全体に対して行う場合はコスト関数と呼ばれます。

    実際には、ロジスティック回帰の損失関数は、実際の値とは逆にポイントを予測した場合にはより多くの誤差を出す必要があり、正しい予測の場合にはより少ない誤差を出す必要があります。つまり、実際のラベル(y)が1の場合、予測されたラベル(ŷ)が0.14の場合、誤差は大きくなり、予測されたラベルが0.98の場合、誤差は非常に小さくなる必要があります。つまり、y=1の場合、ŷが1に近いほど誤差は少なく、ŷが0に近いほど誤差は大きくなるはずです。

    上記の文は次のように定式化できます:

    上記の式が数学的に意味をなすために、対数損失を定義します

    実際のラベル(y) = 1の場合、損失は-log(ŷ)となり、y = 0の場合、損失は-log(1-ŷ)となります。

    。 予測値ŷ = 1およびŷ = 0を考える

    上記の関数は、以下の式で表される:

    上記の方程式はロジスティック回帰の損失関数であり、 ログ損失 と呼ばれます

    8. ロジスティック回帰のコスト関数

    データセット全体に対して計算される損失関数は コスト関数と呼ばれます。

    ここで m はデータサンプルの数であり、したがって、ロジスティック回帰のコスト関数は次のように書くことができます:

    まあ、これがロジスティック回帰についてのすべてです。 ロジスティック回帰アルゴリズムは、実装と理解の容易さから、医療診断、離反予測、信用リスク管理などの機械学習分類問題で非常に人気があります。 この記事が役に立つことを願っています。

    おしまい!

    これもチェックしてください:

    サポートベクターマシンのワンストップ

    サポートベクター? マシン? それに、なぜオズワルド・モズリーは死んでいないのですか?

    VoAGI.com

    KNNのワンストップ

    最近傍法? これらの近傍はどれくらい近いですか? まあ、彼らが噛んでくれないことを願っています!

    VoAGI.com

    We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

    Share:

    Was this article helpful?

    93 out of 132 found this helpful

    Discover more