共分散と相関の違いは何ですか?

共分散と相関の違いは何ですか?

イントロダクション

統計の広範な領域において、変数間の複雑な関係を理解し解き放つことは重要です。

データ駆動型の意思決定、科学的な発見、予測モデリングなど、複雑なデータセット内の隠れた関連やパターンを解き明かす能力に依存しています。この追求を支えるさまざまな統計基準の中で、共分散と相関は重要であり、変数間の独立性に関する洞察を提供します。

共分散と相関は統計解析において頻繁に発生する変数ですが、多くの人々が誤解したり、相互に交換可能に使用したりすることがあります。これら2つの基準を区別する微妙なニュアンスは、統計的な関係の解釈と活用に深い影響を与える可能性があります。

したがって、共分散と相関の真の性質を理解することは、データの全ポテンシャルを明らかにしようとするデータ愛好家や専門家にとって非常に重要です。

このブログ「共分散と相関」では、これら2つの統計的概念の違いを説明し、その関係を解明します。

また、Analytics Vidhyaの「データサイエンスのためのSwift学習」コースでスキルを向上させ、データサイエンスのキャリアを活性化しましょう。

共分散

2つのランダム変数間の系統的な関連性を示す統計用語であり、もう一方の変数の変化が1つの変数の変化を反映することを示します。

共分散の定義と計算

共分散は、2つの変数が直接的または逆比例しているかどうかを示します。

共分散の式は、データセット内のデータポイントをその平均値から求めます。たとえば、次の式を使用して、2つのランダム変数XとYの共分散を計算できます:

上記の手順において、

共分散値の解釈

共分散値は、変数間の関係の大きさと方向(正または負)を示します。共分散値は-∞から+∞の範囲を持ちます。正の値は正の関係を示し、負の値は負の関係を示します。

正の共分散、負の共分散、およびゼロ共分散

数値が高いほど、変数間の関係は依存性が高くなります。それぞれの共分散の種類を理解しましょう:

正の共分散

2つの変数間の関係が正の共分散である場合、それらは同じ方向に進化しています。これは変数間の直接的な関係を示しています。したがって、変数は同様に振る舞います。

変数の値(小さいまたは大きい)が、他の変数の重要性と等しい場合、変数間の関係は正の共分散となります。

負の共分散

負の共分散は、2つのランダム変数間の負の関係を示します。この場合、変数は逆方向に動きます。

正の共分散とは異なり、1つの変数の増加に対応して他の変数の値が減少し、その逆も同様です。

ゼロ共分散

ゼロ共分散は、2つの変数間に関係がないことを示します。

直線的関係の評価における共分散の重要性

共分散は、変数間の直線的な関係を判断する上で重要です。変数間の関係の方向(負または正)および大きさを示します。

共分散の値が高いほど、変数間の直線的な関係が強くなります。ゼロの共分散は関係がないことを示します。

共分散の制限と考慮事項

測定のスケールは共分散に影響を与え、外れ値に大きく影響を受けます。共分散は線形関係のみを測定し、方向や強度を理解することはありません。

また、異なる変数の範囲が異なるため、異なるデータセット間での共分散の比較には注意が必要です。

相関

共分散と異なり、相関は複数の変数間の関係の方向と強度を示します。相関は、2つ以上のランダム変数が連続して進化する程度を評価します。

相関係数の定義と計算

相関は、2つの数値変数間の関係の強さを決定する統計的な概念です。変数間の関係を推測する際に、1つの変数の変化が他の変数の差異に影響を与えることを考えます。

2つの変数の研究中に、もう一つの変数の類似した動きが一方の変数の進化を反映する場合、変数は相関しています。

相関係数を計算するための式は以下の通りです:

ここで、

相関値の解釈

値に基づいて相関には3つのタイプがあります。負の相関、正の相関、およびゼロの相関。

正の相関、負の相関、およびゼロの相関

変数が互いに比例している場合、2つの変数は正の相関を持つと言われます。つまり、1つの変数の値が上昇すると、もう1つの変数の値も上昇します。理想的な正の相関は1の値を持ちます。

正の相関の例:

負の相関では、1つの変数の値が増加する一方で、2つ目の変数の値が減少します。完全な負の相関は-1の値を持ちます。

負の相関の例:

共分散の場合と同様に、ゼロの相関は変数間の関係がないことを意味します。したがって、1つの変数が増加または減少しても、他の変数に影響を与えません。

相関の強さと方向

相関は複数の変数間の線形関係の方向と強さを評価します。相関係数は-1から1までの値を取り、-1または1に近い値は高い関連性(それぞれ負の関連性または正の関連性)を示し、0に近い値は弱いまたは相関がないことを示します。

ピアソン相関係数とその特性

ピアソン相関係数(r)は2つの変数間の線形関係を測定します。ピアソン相関係数の特性は次のとおりです:

  • 強度: 係数の絶対値は関係の強さを示します。係数の値が1に近いほど、変数間の相関は強くなります。ただし、0に近い値は関連性が弱いことを示します。
  • 方向: 係数の符号は関係の方向を示します。値が正の場合、2つの変数間には正の相関があります。つまり、1つの変数が上昇すると、もう1つの変数も上昇します。値が負の場合、負の相関があります。つまり、1つの変数が増加すると、もう1つの変数が減少します。
  • 範囲: 係数の値は-1から1まで変動します。完全な線形関係は-1で表され、線形関係がない場合は0で表され、理想的な線形関係は1で表されます。
  • 独立性: ピアソン相関係数は2つの変数がどれだけ線形的に依存しているかを定量化しますが、因果関係を示すものではありません。強い相関が因果関係を示す保証はありません。
  • 線形性: ピアソン相関係数は変数間の線形関係のみを評価します。非線形の関係を完全に説明するには不十分な場合があります。
  • 外れ値の感度: データ中の外れ値は相関係数の値に影響を与える可能性があり、その値を増大または減少させることがあります。

データサイエンスプロジェクトでの実践的な経験を積みたい場合は、Analytics Vidhyaのアナリストとデータサイエンティストのためのトップデータサイエンスプロジェクトの包括的なプログラムを探索してみてください。

その他の相関係数の種類

その他の相関係数には以下のものがあります:

  • スピアマンの順位相関: 順位相関または2つの変数の順位の統計的依存関係を評価する非パラメトリックな指標です。順位相関は2つの変数間の関係をどれだけ効果的に捉えることができるかを評価します。
  • ケンドールの順位相関: 測定値間の順序関係を決定する統計量です。順位相関の尺度として、各数量によって順序付けられたデータの類似性を表します。

反対称なコピュラのスピアマンの順位相関とケンドールのtauは、本質的に奇数のパラメータ関数です。

共分散の利点と欠点

共分散の利点と欠点は次のとおりです:

利点

  • 計算が容易: 共分散の計算には、基になるデータの分布についての仮定は必要ありません。したがって、上記の式で共分散を簡単に計算することができます。
  • 関係を把握: 共分散は変数間の線形関連性の程度を測定し、関係の大きさと方向(正または負)についての情報を提供します。
  • ポートフォリオ分析で有益: 共分散は異なる資産を統合することの分散効果を評価するために、通常、ポートフォリオ分析で使用されます。

デメリット

  • 線形関係に制限される:共分散は変数間の線形関係のみを測定し、非線形の関連性を捉えることはできません。
  • 関係の大きさを示さない:共分散は変数間の関係の強度や強さの標準化された推定値を提供しません。
  • スケール依存性:共分散は変数の測定尺度に影響を受けるため、異なるデータセットや異なる単位を持つ変数の共分散を比較することが困難です。

相関の利点と欠点

相関の利点と欠点は以下の通りです:

利点

  • 非線形関係の判断:相関は主に線形関係を推定しますが、スピアマンの順位相関係数などの代替相関基準を使用する場合、非線形の関連性の存在を示すこともあります。
  • 標準化された基準:ピアソン相関係数などの相関係数は-1から1までの標準化された値であり、異なるデータセット間での関係の方向と強さを容易に比較して解釈することができます。
  • 外れ値に対する頑健性:相関係数は通常、共分散よりも外れ値に対して感度が低く、変数間の関連性のより強力な尺度を提供します。
  • スケールの独立性:相関は測定尺度に影響を受けないため、異なる単位やスケールを持つ変数間の関連性を比較するのに便利です。

デメリット

  • 極値による影響:極値は相関係数に影響を与えることがありますが、共分散よりも外れ値に対してはより耐性があります。
  • データ要件:相関はデータが二変量正規分布に従っていると仮定しており、常に正確ではない場合があります。
  • 二変量解析に限定される:相関は同時に2つの変数間の関連性を調べるため、単純な多変量相関のみを捉えることができます。

共分散と相関の類似点

共分散と相関の間にはいくつかの違いがありますが、類似点もあります。以下にいくつかの類似点を示します:

変数間の関係の指標

相関と共分散はともに変数間の線形関係のみを測定します。つまり、相関係数がゼロであれば共分散もゼロとなります。また、位置の変化は相関と共分散の基準に影響を与えません。

線形関連性の尺度

共分散と相関の両方は、変数間の関係を評価するために使用される尺度です。これらは変数同士の関連性を明確に示します。

同じ変数を使用した計算

共分散と相関の計算には同じセットの変数が必要です。興味のある変数の対応する観測値が必要です。

ただし、変数間の関係を計算する際には、共分散ではなく相関を選択することが常に推奨されます。なぜなら、スケールの変化が相関に影響を与えないからです。

共分散と相関の違い

共分散と相関は統計用語ですが、さまざまな点で異なります。

解釈と値の尺度

スケールの変化によって共分散の値が変わります。共分散の値が大きいほど依存関係が高いことを意味します。共分散の解釈は困難です。

一方、相関の値はスケールの変化に影響を受けません。相関係数は-1から1までの範囲であり、共分散とは異なり、より直感的な解釈が可能です。

計測単位との関係

変数の計測単位は共分散に影響を与えるため、異なるデータセットや異なる単位を持つ変数間の共分散を比較することが困難です。

一方、相関係数には単位がなく、計測単位に依存しないため、さまざまな単位を持つ変数間の比較が可能です。

標準化とデータセット間の比較

共分散は標準化されていないため、さまざまなデータセット間での共分散の比較は困難です。一方、相関係数は標準化されています。したがって、変数、データセット、またはコンテキスト間で直接比較することが容易です。

外れ値に対する頑健性

外れ値は共分散の値に大きな影響を与えます。したがって、外れ値の存在に対して敏感です。一方、相関係数は外れ値に対してより頑健な関係の尺度を提供します。

異なるコンテキストとアプリケーションでの使用

共分散は以下のようなアプリケーションがあります:

  • 生物学 — 特定のDNAを評価するための分子および遺伝学。
  • 金融市場における異なる資産への投資額の推定。
  • 海洋学的/天文学的な研究から得られたデータの収集による結論。
  • 主成分の論理的な含意を持つデータセットの検証。
  • 異なる形式で得られた信号の研究。

一方、相関は以下のようなアプリケーションがあります:

  • パターン認識で使用される
  • 貧困と人口の関係を測定する
  • 夏と家族の水の消費量の間の温度上昇を分析する
  • オンラインの電子商取引ウェブサイトでの顧客の時間とお金の推定
  • 過去の天気予報レポートと現在の年度を比較する

違いをまとめると、以下の表をご覧ください:

ユースケースと例

以下に、共分散と相関の実用的な応用と例を示します:

共分散が有用な実践的なシナリオ

共分散が有益である実践的なシナリオは3つあります:

  1. 市場調査: 共分散は市場調査で使用され、売上収益と広告費のような変数の関連性を分析し、マーケティングの取り組みがビジネスの結果に与える影響を理解するために使用されます。
  2. リスク評価: 共分散はリスク管理やリスク評価に役立ちます。たとえば、保険では、共分散を使用して異なる変数(クレームの頻度、健康状態、年齢など)の関連性を特定し、潜在的な損失を評価し適切な保険料を設定することができます。
  3. ポートフォリオ分析: 共分散はファイナンスにおいてポートフォリオ内の異なる資産収益の関連性を評価するために広く使用されます。正の共分散は資産が同じ方向に移動することを意味し、負の共分散は逆方向に移動することを示します。このような情報は、リスク管理のためのポートフォリオの多様化に役立ちます。

相関が有用な実践的なシナリオ

相関の実践的なケースには、予測、データ分析、医学研究などがあります。

  1. 予測: 相関は、予測者がある変数を別の変数の値に基づいてどの程度予測できるかを決定するのに役立ちます。たとえば、販売予測では、過去の販売記録に基づいて将来の販売を予測するために相関が役立ちます。
  2. データの分析: データの愛好家は、相関を使って変数間の関係を定量化し特定するためによく使用します。たとえば、社会科学では、相関を使用して教育水準や収入のような変数間の関連性や生産性と職場の満足度との関連性を調べるのに相関が役立ちます。
  3. 医学研究: 医学研究では、相関を使用して肺がんと喫煙の関連性や心血管疾患のリスクとBMI(体格指数)の関連性など、変数間の関連性を見つけるのに役立ちます。

共分散と相関の実世界の例と応用

共分散と相関の応用は上記で説明されていますが、それらの実世界の例は以下の通りです:

共分散は金融や現代のポートフォリオ理論で広く使用されています。たとえば、CAPM(資本資産価格モデル)では、セキュリティと市場の共分散がモデルの主要な変数であるベータの計算に使用され、投資対象の期待収益を決定します。

CAPMでは、ベータは資産のボラティリティまたはシステマティックリスクを全体の市場と比較して測定し、共分散を使用して投資家の特定の投資に対するリスク露出を決定する貴重な指標です。

相関の例には、ランニング時間と体脂肪の関係があります。人がジョギングに費やす時間が長いほど、体脂肪は少なくなります。言い換えれば、変数のランニング時間と変数の体脂肪の間には負の関係があります。ランニング時間が長くなると体脂肪が減少します。

別の例には、体重と身長の関係があります。個人のサイズと体重の関係は通常、良好です。言い換えれば、背の高い人ほど重量が重い傾向があります。

共分散と相関の選択に考慮すべきポイント

共分散または相関を結論付ける前に、次の点を考慮する必要があります:

1. 研究問題または目的に関する考慮事項

要件に焦点を当ててください。選択するものは、特定の目的または研究問題に合わせる必要があります。変数間の線形関連の方向と強度を推定することを目的とする場合、相関を選択するのが賢明です。ただし、解釈なしで関係の範囲を測定する場合は、共分散を選択してください。

2. 変数の性質と基礎となる仮定

次に考慮するポイントは、調査している変数の性質と各測定方法の仮定です。相関には単位がありません。単位を持たず、変数間の線形関連を示します。ただし、共分散は基本単位に焦点を当て、スケールに敏感です。

3. データの入手可能性と測定スケール

変数の測定スケールと利用可能なデータを評価することを忘れないでください。共分散は変数の対になる観測値を要求しますが、相関は類似性と二変量正規性の仮定が必要です。

4. 標準化された解釈または比較の重要性

さまざまな変数やデータセット間での比較や標準化された解釈の必要性を分析する必要があります。比較が重要な場合、相関の標準化範囲は-1から1まで変動し、簡単な比較と解釈が可能です。

5. 特定の分析または領域での適用性

特定の分析または研究領域を選択する必要があります。共分散は市場調査、リスク評価、ファイナンスに適用されますが、相関は予測、データ分析、社会科学に使用されます。

結論

共分散と相関の違いを理解することは重要です。共分散は線形関係の度合いを測定しますが、相関は方向と強度も考慮した標準化測定を提供します。

共分散と相関の選択には、標準化、解釈、スケール、外れ値への感度、およびさまざまな項目での適用性など、いくつかの違いがあります。大きく異なる一方で、いくつかの類似点も共有しています。それらは変数間の関係の指標であり、線形関連の測定です。

適切な測定の選択は重要です。特定の要件と分析の文脈に基づいている必要があります。共分散は市場調査、リスク評価、ポートフォリオ分析などで有益です。一方、相関は医学研究、予測、データ分析などで役立ちます。

キャリアを加速させたいのであれば、専門家にお任せするのはどうでしょうか? Analytics Vidhyaのデータサイエンスのハック、ヒント、トリックコースを探索して、データサイエンティストとして充実したキャリアを手に入れましょう。

よくある質問

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

人工知能

「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 - インタビューシリーズ」

ソフトウェアエンジニアリングの副社長として、DougはCornelis Networksのソフトウェアスタック全体、Omni-Path Architecture...

人工知能

「クリス・サレンス氏、CentralReachのCEO - インタビューシリーズ」

クリス・サレンズはCentralReachの最高経営責任者であり、同社を率いて、自閉症や関連する障害を持つ人々のために優れたクラ...