「Scikit-Learnによる次元削減:PCAの理論と実装」
『美容・ファッションの専門家が解説!魅力的な外見を作るための美容とファッションのノウハウ』
次元の呪いを乗り越える方法を学ぼう!PythonとScikit-Learnでやり方を学ぼう。
Flatlandという小説では、二次元世界に住むキャラクターが三次元の存在に遭遇した際に困惑し、理解することができません。私はこの比喩を使って、機械学習において数千または数百万もの次元(すなわち、特徴)が関与する問題に対して類似した現象が起こることを示しています。驚くべき現象が起き、それが私たちの機械学習モデルに壊滅的な影響を及ぼします。
現代の機械学習の問題でも、数多くの特徴量が関与していることに驚かされることがあると思います。すべてのデータサイエンスの実践者は、いずれこの課題に直面することになるでしょう。この記事では、最もよく使用される次元削減アルゴリズムである主成分分析(PCA)の理論的な基礎とPythonの実装について探っていきます。
なぜ特徴量の数を減らす必要があるのでしょうか?
今日では、数千または数百万の特徴量を持つデータセットは一般的です。データセットに新しい特徴量を追加することで貴重な情報がもたらされるかもしれませんが、それはトレーニングプロセスを遅くし、良いパターンや解決策を見つけるのが難しくするでしょう。データサイエンスでは、これを次元の呪いと呼び、データの歪んだ解釈や不正確な予測につながることがよくあります。
私たちのような機械学習の実践者は、ほとんどの機械学習の問題では、特徴量の数を一貫して減らすことができるという事実を活用することができます。例えば、画像を考えてみてください:枠周辺のピクセルはしばしば価値のある情報を持っていません。ただし、機械学習の問題において特徴量の数を安全に減らすための技術は容易ではなく、この記事で説明します。
私が紹介するツールは、計算作業を簡素化し、予測の精度を向上させるだけでなく、高次元のデータをグラフィカルに視覚化するためのツールとしても役立ちます。そのため、インサイトを伝えるためにも必須です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- RLHF:人間のフィードバックからの強化学習
- リコグニションカスタムモデレーションの発表:データを使用して事前訓練されたリコグニションモデレーションモデルの精度を向上させます
- 「SwimXYZとの出会い:水泳モーションとビデオのための合成データセット、3.4Mフレームにグラウンドトゥルースの2Dおよび3Dジョイントの注釈が付いています」
- 「WHOが医療分野におけるAI規制の考慮事項の概要を発表」
- In English Building a Batch Data Pipeline with Athena and MySQL
- 「NVIDIA DGX クラウドと AI エンタープライズがオラクルクラウドマーケットプレイスに登場」
- 「SQLを使用したデータベースの導入:ハーバードの無料コース」