声サンプルデータ分析を使用したパーキンソン病の診断:特徴選択

声サンプルデータ分析によるパーキンソン病の診断:特徴選択

図: モハメド・アリもパーキンソン病に苦しんでいました。画像の出典はhttps://www.greenleft.org.au/content/muhammad-ali-%E2%80%94-free-black-man

概要

パーキンソン病(PD)として知られる神経疾患は、神経系に損傷を与える増加する運動異常を特徴としています。この病気は広く発生しているにもかかわらず、特定の治療法はありません。正確な診断方法の欠如と既存の技術の侵襲性のため、PDの診断は困難です。音声サンプルデータの処理は非侵襲的な診断方法として研究されています。私たちの研究の目的は、PDのある人とPDのない人の間で異なる声の特徴を特定し、この違いを明確にすることです。これらの聴覚的な兆候を調べることは、シンプルで信頼性の高いPD診断ツールの開発に役立ちます。それがこの研究の目標です。

この研究では、PD患者と健康な人々の音声サンプルを含むデータセットを使用しています。参加者によって、単語、フレーズ、持続的な母音、および数字からなる26の音声サンプルが記録されました。この調査は、無料の音響解析ソフトウェアPraatを使用して得られた音響パラメータに基づいています。この研究の目標は、信頼性の高い実用的なPD診断ツールの作成に役立つことです。

データであるpo1_data.txtはこのGitHubリポジトリとPythonコードParkinson_Diseaase_Feature_Selection.pyにあります。

データの理解

データセットには1039のエントリと29の列があり、さまざまな音響要素が含まれています。データは読み込まれ、前処理されました。幸いなことに、ヌル値や重複したエントリは含まれていません。データセットはパーキンソン病(健康)のない人々とパーキンソン病(影響を受けた)の人々に分けられています。PDの有無に関する人数の割合はほぼ同じです。これらのサブセットは比較分析と視覚化のために使用され、健康な人々とPDの影響を受けた人々の間の違いを探索します。更新された列名は、それらが表す音響属性についての洞察を提供します。

記述統計

この研究では、パーキンソン病(PD)のある人々とPDのない人々の2つのサブデータセットが分析され、中心傾向と変動性の違いをよりよく理解するために使用されました。.describe()メソッドを使用して、”subject_id”などの余分なフィールドを除外して要約統計量が計算されました。これらの特徴がどのようにPDに影響を与えるかを知るために、平均値、中央値、および標準偏差に注目して重要な統計量の違いが計算されました。

図: PDのデータとPDのないデータの中心傾向の違い

特徴選択は、PDのあるデータセットとPDのないデータセットの間で相当な違いを示し、最大の違いを示す「MaxPitch」は33.81です。さらに、この研究では重症度の評価、音声パターンの特徴、および「MeanPitch」、「MedianPitch」、「StdDevPitch」の平均値と中央値の違いも明らかにしました。これらの結果は、パーキンソン病患者と健康な人々の間で区別すべき重要な特徴を明らかにします。

ヒストグラム

この研究では、健康な参加者と病気の参加者の数値的な特徴の分布を並べてヒストグラムで比較しています。

図: Hatchのあるヒストグラム

ジッター指標などの特徴に関しては、ヒストグラムは2つのグループ間の特徴の分布の違いを示しています。声の変動性の特徴は、”Shimmer”が”APQ5″の分布を示して、異なる程度の分散と歪みを示しています。一方、”NHR”は正の歪んだ分布を持ち、より高い値に向かってデータの歪みを示していますが、調和はこれらの値と比べて0.85の平均値と0.09の標準偏差を持っています。”NumPulses”や”NumPeriods”などの強く正の歪んだ特徴は、外れ値や変動性を示しています。”MeanPeriod”や”StdDevPeriod”などの属性の分布はゼロに近く、限られた分散を示しています。’UPDRS’は右に歪んだ分布を示し、おそらくパーキンソン病の重症度を示唆しています。

ボックスプロット

音声録音の特性には、ピッチの変動、声の強度の変化、ハーモニクスとノイズ比、外れ値を示す時間的なパターンが含まれています。これらの外れ値の解釈は文脈に依存し、その内容に関する知識が求められます。これらの外れ値を慎重に扱うことは重要です。なぜなら、これらは録音された音声特性と行動について重要な詳細を示しているからです。

推測統計分析

平均の差と信頼区間

Figure: 平均の差と信頼区間

この研究では、パーキンソン病グループの平均最大ピッチ値は、対照グループの平均最大ピッチ値よりも33.810 Hz低いという結果が得られました。これは最大ピッチ特性の平均の差であり、-33.810です。この差の信頼区間は(-44.17996795243055, -23.4409801756263)であり、実際の平均最大ピッチ値の差がこの範囲にあることを95%の確信で示しています。

仮説検定

この研究では、健康な人と病気の人の音響特性、ピッチ関連の測定値、および臨床評価を比較しました。結果はいくつかの次元で有意な差が見られました。ただし、いくつかの特性は必要なz値に達していないため、健康な人と病気の人が明確に異なると断言するには十分な支持がないことを示しています。それでも、これらの特性は2つのグループの対比を包括的に描写するために役立ちます。

Figure: 帰無仮説が棄却された特性

健康な人と病気の人の間には、帰無仮説(H0)を棄却する特性による有意な差が示されました。たとえば、「FractionUnvoicedFrames」のzスコアは-3.923であり、「DegreeVoiceBreaks」のzスコアは-4.073でした。また、「Harmony」のzスコアは2.601であり、2つのグループの違いを強調しています。また、「Jitter」メトリックス、「MaxPitch」、「MeanPeriod」、「MeanPitch」、「MedianPitch」、「Shimmer(APQ11)」、「StdDevPitch」、および「UPDRS」スコアなどの他の指標も、必要な値を明らかに上回るzスコアを示しており、これらの偏差の重要性を強調しています。

特徴選択

この研究では、パーキンソン病(PD)の検出に最も重要な特性を特定するために、仮説検定と特徴のソートの組み合わせを使用しています。帰無仮説は「reject_results.csv」ファイルに記録され、平均の差と信頼区間を用いて特徴をソートします。NumPyのnp.intersect1d()メソッドを使用して、仮説検定を通じて一貫して関連性を示す特徴を特定します。この戦略により、一貫して重要性を示し、特徴を区別する特徴に焦点を当てることで、分析プロセスが簡素化されます。

特徴選択戦略には、DegreeVoiceBreaks、FractionUnvoicedFrames、MaxPitch、MeanPitch、MedianPitch、Shimmer(APQ11)、StandardDevPitch、およびUPDRSが含まれています。これらの特徴は、平均、中央値、および標準偏差などの中心傾向に基づいて選択されました。StdDevPitchは信頼区間が低く、健康な人と病気の人を区別するのに関連しているため選択されました。UPDRSは信頼区間が狭く、平均の差が大きいため選択されました。FractionUnvoicedFramesとDegreeVoiceBreaksはヒストグラム上で類似しているため、除外されました。

Jitter(%)、Jitter(Abs)、Jitter(DDP)、Jitter(PPQ5)、およびJitter(RAP)は、PDの検出に興味深い特徴として特定されました。Jitter(%)は、Jitter(%)とJitter(DDP)の間の有意な平均の差に基づいて次の特徴として選択されました。Jitter(%)とJitter(DDP)の選択は、ヒストグラムに基づいて行われ、PDの検出により確実性をもたらすと考えられています。

プロジェクトの分析と可視化により、パーキンソン病(PD)のある人とそれを持たない人との間には、聴覚的特徴の重要な違いが明らかになりました。これらの結果は、パーキンソン病(PD)のための非侵襲的な診断ツールの開発に期待が持てることを示しており、早期治療や患者の結果の改善につながる可能性があります。

分析の最終列は以下のとおりです:

  • MaxPitch
  • StdDevPitch
  • UPDRS
  • Jitter(%)
  • PD indicator

結論

パーキンソン病(PD)の診断における離散的な聴覚的指標を明らかにするために、記述的な分析、推論統計的テスト、および領域知識を使用して音声サンプルデータを徹底的に分析しました。仮説検定、平均の差の計算、特徴分布の可視化を補助とした慎重な選択により、MaxPitch、StdDevPitch、UPDRS、Jitter(%)、およびPD indicatorが、PDの影響を受けた個人と健康な個人を区別する上で一貫した有意性を示すことがわかりました。当社の研究は、追加のテストや機械学習モデルが必要であっても、パーキンソン病(PD)の早期検出のための有望な手法として音声分析の可能性を強調しています。この手法は、非侵襲的な診断器具の開発の可能性を示唆しています。

参考文献

  1. 国立神経疾患および脳卒中研究所(2023)。パーキンソン病情報ページ。https://www.ninds.nih.gov/healthinformation/disorders/parkinsons-disease
  2. パーキンソン財団(2023)。注目すべき人物。https://www.parkinson.org/understanding-parkinsons/statistics/notable-figures

私のデータアナリストの旅に参加するために フォローしてください。

プロジェクトの共同作業、知識共有、またはガイダンスのためにTwitterでつながりましょう、またはEmailで連絡してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more