データマイニングにおける連想ルールとは何ですか?

データマイニングにおける連想ルールの意味とは?

イントロダクション

石炭採掘からデータマイニングへの人類の進化は、人間の成長と技術の発展に莫大な貢献を持っています。物理的な作業の範囲が変化し、この新しいタイプのマイニングを行うために重さは精神的な努力に移行しました。データマイニングプロセスには、顧客を理解しビジネスの成長に寄与する実用的な貢献がある連想ルールを含む多くの側面があります。正確な要件をお持ちですか?顧客満足度の指数的な向上をもたらすための知識の向上に興味がありますか?大手ブランドと競合するより優れた推薦システムを開発したいと考えていますか?ここでは、データマイニングにおける連想ルールの主要な概念と基本についての簡単な紹介があります。

学習目標

  • 連想ルールの本質を理解し、データ内の関係を示すif/then文としての役割を把握する。
  • 市場バスケット分析、詐欺検出、および推薦システムなどのアプリケーションの特定と差別化を行い、連想ルールの汎用性と実用的な重要性を示す。
  • カーディナリティ、サポート、信頼性、リフトといった要素がデータセット内の関係を予測・評価する際にどのように機能するかに洞察を得る。

データマイニングにおける連想ルールとは何ですか?

連想ルールは、名前によって定義され、データ間の関係や依存関係を特定するif/then文です。数値データや非数値データに適している特性を持ち、市場バスケット分析などのアプリケーションでよく使用されます。関連性のある情報をリレーショナルデータベースやトランザクションデータベース、他のデータソースから取り込むことができます。

連想ルールは、前件(if)と結果(then)の2つの部分から成り立ちます。前件はデータで利用可能な最初の部分であり、結果は前件と組み合わせて利用可能な結果的な部分です。例えば、市場バスケット分析の場合、「顧客がランニングシューズを購入した場合、エナジーバーも購入する可能性が高い」となります。ここで、ランニングシューズが前件、エナジーバーが結果となります。この例は特にフィットネス愛好家の対象をターゲットにしています。

連想ルールの利用事例とは何ですか?

連想ルールにはさまざまな応用があります。トップ3の連想ルールマイニングの例は以下の通りです:

市場バスケット分析:購入組み合わせの例としては、ヨーグルトとグラノーラの購入がベリーの購入と関連している可能性が高いことが挙げられます。これは購買習慣や要件の分析における連想ルールの重要性を示しています。組み合わせオファーや商品配置の最適化、売上の増加など、実用的な解釈の利用が見られます。

詐欺検出:ここでは、購入パターン、場所、頻度などの組み合わせを特定します。これによって不正行為を検知し、同じIPアドレスからの予防措置を取ることができます。

推薦システム:これには、ブラウジング履歴や過去の購入から使用パターンを検知し、ユーザーの将来の要件を予測することが含まれます。推薦はそれに基づいて行われます。マーケティングからの利用拡大は、音楽や番組ベースのサービスでも重要です。

出典: Dataaspirant

連想ルールはどのように機能しますか?

先に説明した連想ルールの予測は、カーディナリティ、サポート、信頼性に基づいて計算されます。カーディナリティは2つのアイテムの関係を指し、オブジェクトの数に比例して増加します。サポートは文の頻度を示し、信頼性はこれらの関係の真実性の頻度を示します。連想ルールの機能を説明するには、組み合わせが発生する理由と状況を規定するルールを特定します。例えば、朝食の健康的で時間のかからないオプションとして、ヨーグルトにグラノーラとベリーを組み合わせることが好ましいとされています。

実際の状況では、数字が非現実的になることがよくあります。統計的に独立したアイテムの中で最も購入の組み合わせが少ないものが、実際の使用では非常に高い割合で結合されることがあります。例えば、統計的にはビールとおむつの同時購入は起こりにくいですが、実世界の統計では比較的高いです。この統計の増加をリフトと呼んでいます。

関連ルールの効果の測定

関連ルールの効果は、主にサポート、信頼度、およびリフトによって測定されます。サポートは頻度を指し、高いサポートはデータセット内の数量の一般的な存在を示します。信頼度は関連ルールの信頼性を測定します。高い信頼度はAとBが比例しており、互いに直接関係が増加していることを示唆します。

リフトはアイテムの依存性を比較します。統計的および実用的な数字が同じであるか、前件と後件が同じである場合、リフトは1になり、関連したオブジェクトは独立しています。リフトが1より大きく、前件が後件よりも大きい場合、オブジェクトは互いに依存します。また、リフトが1より小さい場合、後件が前件よりも多い場合、組み合わせは互いに否定的な影響を与えます。

出典:データマイニングマップ

関連ルールのアルゴリズム

関連ルールの生成には3つのアルゴリズムが使用されます。以下に述べます。

アプリオリアルゴリズム

アプリオリアルゴリズムの関連ルールは頻繁なトランザクションデータセットを通じて生成されます。マーケットバスケット分析によく使用され、BFS(幅優先探索)やハッシュツリーのようなテクニックが使用されます。共に購入される組み合わせ商品の情報を提供し、また、患者の薬物反応を見つけるための医療目的にも役立ちます。

Eclatアルゴリズム

Equivalent Class Transformationとしても知られており、深さ優先探索の技術を使用しています。迅速かつ正確な実行を提供し、トランザクションデータベースにも対応します。Eclatアルゴリズムは少ないストレージを使用し、データの反復スキャンなしで個別のサポート値を計算するためにトランザクションIDセットまたはTidセットを使用します。

F-P Growthアルゴリズム

頻出パターン成長とも呼ばれ、Aprioriアルゴリズムのさらに高度なバージョンです。2つのステップで分析されます。最初のステップではデータベースをツリー構造に変換し、頻出パターンが描かれるために名前が付けられます。2番目のステップは、最も頻度の高いパターンを抽出するための表現形式で簡略化されます。

出典:ResearchGate

結論

データマイニングは包括的なデータセットから情報を抽出することを指します。関連ルールマイニングはデータセット内の相関関係、パターン、関連または因果関係を特定する方法です。マーケット、医療、詐欺検出、生物学的研究など多くの分野で広範な適用範囲を持ち、関連ルールはif/thenステートメントを通じて機能します。サポート、信頼度、およびリフトはその効果の評価において重要な役割を果たします。さらに、関連ルールの開発は3つのアルゴリズムによって行われます。データサイエンスコースでデータマイニングにおける関連ルール学習に関する詳細情報や他の重要な概念を紹介してください。

要点

  • 関連ルールは、マーケットバスケット分析における製品配置の最適化、詐欺検出における不正行為の識別、レコメンデーションシステムによるユーザーエクスペリエンスの向上など、さまざまな分野で実用的な用途があります。
  • サポート、信頼度、およびリフトは、関連ルールの効果を評価するための重要な指標であり、特定の関係の頻度、信頼性、および依存性に関する洞察を提供します。
  • アプリオリ、Eclat、F-P Growthの3つの主要なアルゴリズムを探索することで、関連ルールの生成においてそれぞれ実行速度、データスキャンの効率、および適用範囲に関する固有の利点を得ることができます。

よくある質問

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more