エントロピーとジニ指数入門
エントロピーとジニ指数の入門ガイド' (Entoropī to Jinishisu no nyūmon gaido)
データセットの不確実性を定量化するためにこれらの指標がどのように役立つかを理解する
エントロピー(Entropy)とジニ指数(Gini Index)は、特に決定木アルゴリズムにおいて重要な機械学習の概念であり、分割の品質を決定するのに役立ちます。これらのメトリクスは異なる方法で計算されますが、基本的には同じもの、つまりデータセット内の不確実性(または不純度)を定量化するために使用されます。
エントロピー(またはジニ指数)が高いほど、データはよりランダム(混合)です。
データセットにおける不純度を直感的に理解し、これらの指標がどのようにそれを測定するのに役立つかを理解しましょう。(不純度、不確実性、ランダム性、異質性 – すべての用語は当てはまる文脈で交換可能であり、最終的にはそれらを軽減してより明確にすることが目標です)。
不純度とは – 例を用いて説明します
友達のアリスとボブと一緒に果物を買い物するためにスーパーマーケットに行きました。それぞれが果物を共有したくないので、それぞれがショッピングカートを持っています。以下に、あなたたちが手にしたものを確認しましょう(あなたはリンゴが大好きなようです!!):
これらの3つのカートは、3つの異なるデータ分布と見なすことができます。最初に2つのクラス(リンゴとバナナ)があると仮定した場合、それに続く解釈は正しくありません。代わりに、各カートを異なる分布と考えてください – 最初のカートは1つのクラスにすべてのデータポイントが属しているデータ分布であり、2番目と3番目のカートは2つのクラスを持つデータ分布です。
上記の例を見ると、最も純粋なまたは最も不純なデータ分布(クラス分布を正確に言えば)を特定するのは簡単です。しかし、アルゴリズムが意思決定するためにデータセットの純度を数学的に定量化するためには、エントロピーとジニ指数が役立ちます。
これらのメトリクスは、データセット内で各クラスの発生(または存在)の確率を考慮します。この例では、各ケースに合計8つのデータポイント(果物)がありますので、私たちは…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles