「現実の応用における一般線形モデルの自己相関問題の解決方法」
『美容とファッションの世界で必ず注目されるトレンド』
データサイエンティストの最も一般的な悩みの一つに深く立ち入る
導入
線形回帰の最大の問題の一つは自己相関のある残差です。この文脈で、この記事では線形回帰を再訪し、この問題を解決するためのCochrane-Orcutt手法について探求し、fMRI脳活性化解析の実世界アプリケーションを探求します。
一般線形モデル(GLM)再訪
線形回帰はおそらく任意のデータサイエンティストにとって最も重要なツールの一つです。しかし、特に時系列の文脈では多くの誤解が存在することがよくあります。そのため、この概念を再訪する時間を使いましょう。時系列解析におけるGLMの主要な目標は、時間の経過にわたる変数間の関係をモデル化することです。ここで、Yは対象データ、Xは特徴データ、BとAは推定する係数、そしてƐはガウス誤差です。
インデックスはデータの時間的進化に言及しています。より簡潔な形で書くと:
著者によるもの。
パラメータの推定は、最小二乗法(OLS)によって行われます。これは、観測値とモデルによって予測された値との間の誤差または残差が、独立かつ同一分布(i.i.d)であると仮定しています。
これは、係数の正しい推定、モデルの有効性、および予測の正確性を確保するために、残差が非自己相関である必要があることを意味します。
自己相関
自己相関は、時系列内の観測間の相関を指します。これは、各データポイントが系列内の遅延データポイントとどのように関連しているかを捉えることができます。
自己相関関数(ACF)は、自己相関を検出するために使用されます。これらの方法は、データポイントとその遅延値(t = 1,2, …, 40)との相関を計測し、データポイントが前後の値と関連しているかを明らかにします。ACFプロット(図1)は、異なる遅延での相関係数を表示し、自己相関の強さと影の領域での統計的有意性を示します。
特定のラグでの係数がゼロから有意に異なる場合、自己相関の存在が示唆されます。
残差の自己相関
残差の自己相関は、現在の誤差と過去の誤差との関係または依存関係が時系列内に存在することを示します。この相関パターンは、誤差がランダムでなく、モデルに考慮されていない要因によって影響を受ける可能性があることを示します。たとえば、自己相関は特に分散においてバイアスのあるパラメータの推定を引き起こし、変数間の関係の理解に影響を与えます。これにより、モデルからの無効な推論が生じ、変数間の関係について誤った結論が導かれる可能性があります。さらに、効率の低い予測につながり、つまり適切な情報をキャプチャしていないことを意味します。
コクラン-オルカット手続き
コクラン-オルカット手続きは、経済計量学やさまざまな分野で自己相関の問題に対処するための手法であり、時系列データにおける誤差項の直線モデルを通じて時系列の自己相関を扱うために使用されます[1,2]。私たちは既に、これが最小二乗法(OLS)回帰の仮定の1つである、誤差(残差)が無相関であるという仮定に違反することを知っています[1]。後ほど、この手続きを使用して自己相関を除去し、係数のバイアスをチェックする予定です。
コクラン-オルカット手続きは以下のように実行されます:
- 1. 初期のOLS回帰:最初に、最小二乗法(OLS)を使用してモデルパラメータを推定する初期の回帰分析を行います。
- 2. 残差の計算:初期の回帰から残差を計算します。
- 3. 自己相関の検定:自己相関の存在をACFプロットやダービン-ワトソン検定などのテストを用いて残差を調べます。もし自己相関が有意でなければ、手続きを進める必要はありません。
- 4. 変換:推定モデルは、自己相関を除去するために従属変数と独立変数を差分化して変換されます。ここでのアイデアは、残差を無相関に近づけることです。
- 5. 変換されたモデルの回帰:変換されたモデルで新たな回帰分析を行い、新たな残差を計算します。
- 6. 自己相関の検査:新たな残差に対して再度自己相関を検査します。もし自己相関が残る場合は、ステップ4に戻り、残差が有意な自己相関を示さないまでモデルをさらに変換します。
最終モデルの推定:自己相関が有意でない残差を示すようになった場合、コクラン-オルカット手続きから得られた最終モデルと係数を使用して推論と結論を導出します!
実世界の応用:機能的磁気共鳴画像(fMRI)解析
fMRIの簡単な紹介
機能的磁気共鳴画像(fMRI)は、脳活動を血流の変化を検出することによって測定・マッピングする神経画像法です。脳の神経活動と増加した血流および酸素供給との関連性に基づいています。fMRIでは、脳領域が活動すると、血液酸素化による血液動態応答が引き起こされ、血液酸素レベル依存(BOLD)信号の変化が生じます。 fMRIデータは通常、異なる時間点での脳活性化を表す3D画像から構成されており、したがって脳の各ボクセルにはそれぞれ独自の時系列があります(図2)。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful