「PCAを基礎から構築する」

PCAの基礎構築

ステップバイステップの導出で主成分分析の理解を強化する

ホットエアバルーン。著者による画像。

主成分分析(PCA)は、次元削減によく使われる古い技術です。データサイエンティストの間ではよく知られたトピックですが、PCAの導出はしばしば見落とされ、データの性質や微積分、統計学、線形代数との関係についての貴重な洞察が失われることがあります。

この記事では、思考実験を通じてPCAを導き出し、2次元から任意の次元に拡張します。各導出を進めるにつれて、異なるように見える数学の分野が調和していることがわかり、優雅な座標変換に至ります。この導出により、PCAのメカニズムが明らかになり、数学的な概念の魅力的な相互関係が明らかになります。さあ、PCAとその美しさを探求する、この啓発的な旅に出かけましょう。

2次元でウォーミングアップ

私たちは3次元の世界に住む人間として、通常は2次元の概念を理解しています。この記事では、2次元から始めます。2次元から始めることで、最初の思考実験を簡素化し、問題の性質をよりよく理解することができます。

理論

次のようなデータセットがあります(各特徴は平均0、分散1にスケーリングされている必要があります):

(1) 相関データ。著者による画像。

このデータは、x1x2で表される座標系に存在し、これらの変数は相関しています。私たちの目標は、データの共分散構造に基づいて情報が含まれた新しい座標系を見つけることです。特に、最初の基底ベクトルは、元のデータをその上に射影する際に、分散の大部分を説明するべきです。

最初にやるべきことは、元のデータをベクトルに射影する際に、最大限の分散が保持されるようなベクトルを見つけることです。言い換えれば、理想的なベクトルは、最大の分散の方向を指すべきです。そのベクトルは…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...