ヒストグラムに対する3つの最良の(しばしばより良い)代替方法
ヒストグラムの最良の代替方法3つ
ヒストグラムの最も危険な落とし穴を避ける方法
ビニングバイアス、ヒストグラムの最大の欠点
ヒストグラムは、データサイエンティストとしての旅立ちにおいて、おそらく最初に使用したプロットです。彼らは直感的で、分布の形状を理解するのに簡単なプロットです。
しかし、旅を進めるにつれて、ヒストグラムがそんなに理想的ではないことがわかるでしょう。ヒストグラムは値をビンと呼ばれる区間にグループ化し、ヒストグラム内の各ビンの高さはそのビン内の点の数を示します。以下の例を考えてみましょう:
このヒストグラムから、ほとんどのスコアが60から80の間にあることがすぐにわかります。では、ビンの数を10から20に変更した場合はどうなるでしょう:
それでも、前の傾向は明らかです。では、今度は20から40に変更してみましょう:
- 「芸術家にとっての小さな一歩、クリエイティブ界にとっての大きな飛躍」
- 🤗 Transformersにおけるネイティブサポートされた量子化スキームの概要
- 音楽作曲のための変分トランスフォーマー:AIは音楽家を置き換えることができるのか?
これで、分布が見かけほどスムーズではないことがわかります。40のビンでは、40、62、68、80周辺に小さなピークが見られます。したがって、ビンの数は実際には分布に関する重要な洞察を隠す可能性があります。
ただし、ビンの数をあまりにも変更しすぎると、ランダムなノイズが導入されて重要な発見のように見えるかもしれません。これがヒストグラムの最大の欠点であるビニングバイアスです。
ビニングバイアスは、プロットのためのビンの数を変更すると同じデータの異なる表現が得られるヒストグラムの落とし穴です。
後のセクションでは、ビニングバイアスを回避し、分布を比較するためにより良い結果を提供する3つのヒストグラムの代替手段を見ていきます。
離散データと連続データの復習
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles