Pythonを使用したMann-Kendall傾向検定

PythonでのMann-Kendall傾向検定

はじめに

マン・ケンドール傾向検定は、H.A.マンとD.R.ケンドールにちなんで名付けられた非パラメトリック検定であり、時間の経過に伴う傾向が有意であるかを判断するために使用されます。傾向は、時間の経過とともに単調に増加または減少することができます。パラメトリック検定ではデータの分布について心配する必要がないため、非パラメトリック検定です。ただし、データには直列相関/自己相関(時系列の誤差項が1期から別の期に移動すること)がない必要があります。

マン・ケンドール検定は、特定のデータの分布を仮定せずに、一貫して増加または減少する傾向を検出するために設計されています。これは、正規性などのパラメトリック検定の仮定を満たさない可能性のあるデータを扱う際に特に有用です。

この記事は、データサイエンスブログマラソンの一環として公開されました。

サンプルサイズの要件

サンプルが3または4のように非常に小さい場合、トレンドを見つける可能性が非常に低いです。時間の経過とともにサンプル数が増えるほど、テスト統計量は信頼性が高くなります。ただし、非常に少ないサンプルでもテストを実施することができます。したがって、推奨されるデータは少なくとも10です。

テストの目的

この記事では、列車の脱線に関連する事故について、時間の経過とともに研究します。オリッサ州で最近の列車脱線事故は、再び鉄道の安全性について問題を提起しました。鉄道事故は、事故の種類(例:正面衝突、後方衝突、爆発、側面衝突、脱線、火災など)で分類される場合があります。時間の経過とともに、技術的およびインフラ面で鉄道には多くの改善がありました。しかし、世界中で列車事故は頻繁に発生しています。列車事故は、世界中の鉄道システムで発生する不幸な出来事です。これらの事故は、生命の喪失、負傷、財産の損害につながる可能性があります。

この研究では、年月をかけて、インドの鉄道事故(ここでは脱線事故のカテゴリを研究します)を、過去の改善策を考慮に入れながら、減少させることができたかどうかを判断します。インドの脱線事故に関するデータは、時系列の性質を持っています。2001年から2016年までの脱線事故のデータが整理されています。

私たちのデータ

上記の表から、データの減少傾向が明らかにわかります。2001年から、脱線事故の数は非常に大幅に減少しました。2001年には350件の脱線事故があり、2016年には65件に減少しました。データが順番に整理されているため、Python環境に直接入力して作業することができます。Pythonでデータを適切に視覚化するためにプロットを作成しましょう。

!pip install seaborn
import seaborn as sns
import matplotlib.pyplot as plt
fig = plt.subplots(figsize=(20, 5))
sns.lineplot(x='Year', y='Derailments', data=df)
sns.set_theme(style='white', font_scale=3)

上記のプロットから、明らかに減少傾向が見られます。しかし、この減少傾向が有意であると言えるでしょうか。プロットからは明らかですが、有意である可能性が非常に高いです。マン・ケンドール傾向検定を使用して同じことを確認しましょう。

手順

  • このテストの帰無仮説(H0)は、データに単調な傾向がないことです。
  • 対立仮説(H1)は、傾向が存在することです。傾向は、単調に増加する正の傾向または単調に減少する負の傾向である可能性があります。
  • 検定統計量:M検定は、テスト統計量を「T」として示します。Tの正の値は増加傾向を示し、負の値は減少傾向を示します。Tの絶対値は、傾向の強さを表します。
  • 有意性(アルファ):統計的有意性の閾値を決定するための有意水準(例:0.05または0.10)。これは、データに実際の傾向がない場合に傾向を観察する最大の確率を表します。
  • p値:M-Kテストは、帰無仮説が真であると仮定した場合に、観測されたものと同じように極端なテスト統計量を観察する確率を定量化するp値を計算します。p値は、帰無仮説に対する証拠を表します。
    • p値が有意水準(p < α)よりも小さい場合、帰無仮説を棄却する強力な証拠を示します。これは、データに統計的に有意な傾向があることを示します。
    • p値が有意水準(p ≥ α)よりも大きい場合、帰無仮説を棄却する十分な証拠がないことを示します。これは、データに統計的に有意な傾向がないことを意味します。
    • 結論:p値と有意水準に基づいて、データに有意な傾向が存在するかどうかについて結論を導くことができます。
    • p < αの場合、データに統計的に有意な傾向があると結論付けることができます。テスト統計量(T)の符号に基づいて傾向の方向を考慮することを忘れないでください。
    • p ≥ αの場合、データに統計的に有意な傾向がないと結論付けることができます。傾向の存在を示す十分な証拠がありません。

Pythonコードの手順

  • データセットを読み込む
import pandas as pd
df=pd.read_csv("C:\\Users\\DELL\\OneDrive\\Desktop\\AnalyticsVidhya\\derailment.csv")
df.head()
  • ライブラリをインポートする:
!pip install pymannkendall
import numpy as np
import pymannkendall 

  • Mann-Kendallテスト:
mk.original_test(df["Derailments"])

結論

傾向は減少しており、P値は非常に有意です。したがって、帰無仮説を棄却し、列車の脱線は時間とともに有意に減少していると結論付けます。技術の進歩とインフラの変化により、脱線に関連する事故が著しく減少しました。

  • 堅牢で多目的: Mann-Kendallテストは外れ値に対して堅牢であり、特定のデータ分布を仮定しません。
  • 広範な適用性: Mann-Kendallテストは気候科学、水文学、環境モニタリング、経済学など、時系列データを扱うさまざまな分野で応用されます。
  • 簡単な計算: Mann-Kendall統計量の計算には、データのランキング、ペアごとの差の符号の決定、およびこれらの符号の合計が含まれます。その統計量を使用して傾向の存在を評価します。

よくある質問

この記事に表示されているメディアはAnalytics Vidhyaが所有しておらず、著者の裁量によって使用されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...