「教師なし学習シリーズ ― DBScanの探索」

「美容とファッションの世界:魅力的で生き生きとした記事を書く美容とファッションのエキスパート」

Pythonのsklearnを使用した有名な密度ベースのクラスタリングアルゴリズムの理論を学びましょう

Image from Kier in Sight Archives @Unsplash.com

クラスタリングアルゴリズムは、データサイエンスの世界で最も広く使用されているソリューションの一つであり、最も人気のあるものは距離ベースと密度ベースのアプローチに分類されています。一般に見過ごされがちな密度ベースのクラスタリング手法は、汎在性の高い k-means や階層的なアプローチに対する興味深い代替手法です。

有名な密度ベースのクラスタリング手法には、データポイントの重心を使用して観測値をグループ化する DBSCan(Density-based spatial clustering of applications with noise)やMean-Shiftなどのアルゴリズムがあります。

本ブログ記事では、データに次のような特徴が含まれている場合に特に有用となるクラスタリングアルゴリズムであるDBScanを探求します。

  • クラスタが不規則な形状をしています。たとえば、球状でない形状です。
  • 他の手法と比較して、DBScanはデータの潜在的な分布について事前に何も仮定しません。
  • データセットには、クラスタの重心のマッピングに影響を与えるべきではないいくつかの外れ値が含まれています。

もし、これらの3つの文がわかりにくかった場合は心配しないでください!この記事では、DBScanメソッドのステップバイステップの実装と上記のトピックについて議論します。そして、有名なsklearnのPython実装も確認します!

また、私の無指向学習シリーズの他の記事もご覧いただける場合は、こちらをご確認ください:

それでは、DBScanの動作原理を深く理解してみましょう!

距離ベースのクラスタリングソリューションを適合させる

このステップバイステップの手引きでは、顧客に関する情報を持つおもちゃのデータセットを使用します。この例では、理解しやすくするために、2つの変数クラスタリングを使用します。

私たちは、ショップを運営しており、顧客の人口統計情報を持っています。顧客の年収と年齢に基づいたキャンペーンを行いたいと考えています。ただし、年収と年齢に基づいたキャンペーンを行う

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more