「データから次に最適な質問をどのようにして決定木が知るのか?」

「決定木がデータから次に最適な質問をどのように選ぶのか?」

Pythonでゼロから自分自身で決定木分類器を作り、そのノードを分割するためにエントロピーを使用する方法を理解する

写真 by Daniele Levis Pelusi on Unsplash

イントロダクション

決定木は、分類および回帰の両方の問題を実行できる多目的な機械学習アルゴリズムです。データの特徴に基づいて質問をし、IF-ELSE構造を使用してパスをたどり、最終的な予測に至る結果に基づいて意思決定を行います。課題は、意思決定プロセスの各ステップでどのような質問をするかを見つけることであり、それはまた、各意思決定ノードで最適な分割を決定する方法を尋ねることにも等しいです。

本記事では、単純な二値分類タスクのための決定木を作成しようと試みます。この記事の目的は、各ノードで不純物の尺度(例:エントロピー)がどのように使用され、最終的な予測にたどり着くためにルールベースのアプローチを使用する木構造が作成されるかを理解することです。

エントロピーとジニ不純物(意思決定木のランダム性を測定し、分割の品質を決定する別の指標)の背後の直感を得るために、この記事を素早くチェックしてください。

問題の定義とデータ

問題: 魚の長さと重さの測定値を与えられた場合、その魚がマグロかサーモンかを予測する。

魚の重さと長さを与えられた場合に、その種類(ターゲット変数)を予測することが課題です。これはターゲット変数の値、つまりマグロとサーモンの2つの可能な値がある場合の二値分類タスクの例です。

データセットはこちらからダウンロードできます。

この記事を読みながらコーディングを進めることを強くお勧めします 🙂

コーディング準備

始めるために必要なものがすべてそろっていることを確認しましょう(おそらくすでにそろっているはずですが、念のため)。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more