クラスの不均衡：アンダーサンプリング技術の探求

美容とファッションの専門家が教えるクラスの不均衡：アンダーサンプリング技術の探求

クラスの不均衡を解決するためのアンダーサンプリングについて学びましょう

以前にクラスの不均衡の効果とその原因について正式に説明し、ランダムオーバーサンプリング、ROSE、RWO、SMOTE、BorderlineSMOTE1、SMOTE-NC、SMOTE-Nなど、この問題を解決するためのいくつかのオーバーサンプリングのテクニックも説明しました。今回は、私たちの以前の説明に基づいて、アンダーサンプリングのテクニックを見てみましょう。

アンダーサンプリングのテクニックは、一般的に制御された方法と制御されていない方法の2つの主なカテゴリに分類されます。制御された方法では、アルゴリズムは最終データセットに含まれるべきサンプルの数を示す数字を受け取ります。一方、制御されていない方法では、アンダーサンプリングは通常、ある条件を満たすポイントを単純に削除することによって行われます。どのくらいの数のポイントがその条件を満たすかは事前にはわかりませんし、制御することもできません。今回は、制御されたアンダーサンプリングの2つの技術（ランダムおよびk-meansアンダーサンプリング）と制御されていないアンダーサンプリングの2つの技術（Tomekリンクおよび編集最近傍）をカバーします。

ナイーブランダムアンダーサンプリング

この技術では、クラスkからN_k個のポイントを削除する必要があるとされた場合、クラスからN_k個のポイントが削除のためにランダムに選択されます。

下記は、3つのクラス0、1、および2を持つデータの2つのメジャリティクラスのアンダーサンプリングの例を示しています。

Figure by the author using the Imbalance.jl package in Julia

以下は、アンダーサンプリングの異なる度数での出力を示すアニメーションです。

Animation by the author using the Imbalance.jl package in Julia

特定のポイントを保持するための特定の選択は行われないことに注意してください。データの分布はこれによって深刻に変更される場合があります。

K-Meansアンダーサンプリング

データの分布をより注意深く保持するために、どのポイントを削除（または保持）するかについてより注意を払うことができます。K-meansアンダーサンプリングでは、クラスkにN_k個のポイントが必要な場合、K=N_kとしてK-meansを実行し、N_kつの最終的な重心が得られます。K-meansアンダーサンプリングでは、これらの重心（またはそれぞれの最近傍点；これはハイパーパラメータです）が返される最終的なN_kポイントとなります。重心自体がデータの分布を保持しているため、これによってデータの分布を保ったまま小さなポイントセットが得られます。

以下は、3つのクラス0、1、および2を持つデータの2つのメジャリティクラスのアンダーサンプリングの例を示しています。

ランダムアンダーサンプリングよりもデータの構造を保護する点でより注意深いです。これは、より多くのアンダーサンプリングでさらに明白になります。以下のアニメーションでさらに説明します。

重心は通常ランダム性を含む初期化に依存することに注意してください。

Tomekリンクアンダーサンプリング

これは制御されていないアンダーサンプリング技術であり、トメックリンクの一部となる場合にポイントを削除することができます。二つのポイントがトメックリンクを形成する条件は以下の通りです：

それらは異なるクラスに所属していること
それぞれのポイントがもう一方のポイントの最近傍点であること

ここでの理論は、このようなポイントは決定境界をより良くするのに役立たず（過学習を容易にする可能性があり）、ノイズの可能性があるということです。トメックリンクの適用例は以下の通りです：

アンダーサンプリング後、より直線的な決定境界を見つけやすくなり、データのバランスも改善されます。この例では、緑の少数派クラスのアンダーサンプリングはスキップし、各クラスに十分な数のポイントがあるまでアンダーサンプリングを停止しました。

全てのクラスが最終的にアンダーサンプリングされるようにするために、以下のアニメーションをご覧ください：

Edited Nearest Neighbors Undersampling

トメックリンクは、決定境界を改善するのに役立たないポイントやノイズであることが多いですが、ノイズのポイントの全てがトメックリンクを形成するわけではありません。クラス k_1 のノイズポイントがクラス k_2 の密集領域に存在する場合、ノイズポイントの最近傍点がノイズポイントではない最近点を持つことは正規の動作とされ、トメックリンクを形成するためには存在しません。この条件の代わりに、編集最近傍アンダーサンプリングでは、デフォルトの設定では、ポイントを保持するかどうかは、その近傍の大多数が同じクラスの場合に保持されます。同じクラスの近傍が全てである場合にのみ保持するか、最小のアンダーサンプリングの場合には同じクラスの近傍が存在する場合にのみ保持するオプションもあります。

以下のアニメーションは、アルゴリズムの実行を示しています：

決定境界に役立たないポイントやノイズをさらにクリーニングすることが分かります。近傍の数 k や保持条件を適切に変更すると、さらなるクリーニングが可能です。以下のアニメーションはその効果を示しています。

“モード”と”唯一のモード”の条件の違いは、前者はポイントを保持するときにそのクラスが近傍の中で最も一般的なクラスの一つである場合に保持し、後者はポイントを保持するときにそのクラスが唯一の最も一般的なクラスである場合に保持することです。

ここまで興味深いアンダーサンプリングアルゴリズムについてのツアーを紹介しました。制御されたアンダーサンプリングと未制御のアンダーサンプリングの両方について学ぶのに役立ったことを願っています。次回まで、さようなら。

参考文献：

[1] Wei-Chao, L., Chih-Fong, T., Ya-Han, H., & Jing-Shang, J. (2017). Clustering-based undersampling in class-imbalanced data. Information Sciences, 409–410, 17–26.

[2] Ivan Tomek. Two modifications of cnn. IEEE Trans. Systems, Man and Cybernetics, 6:769–772, 1976.

[3] Dennis L Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Transactions on Systems, Man, and Cybernetics, pages 408–421, 1972.

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Class ImbalanceData scienceMachine learningResamplingUndersampling

Was this article helpful?

93 out of 132 found this helpful