機械学習:中央化とスケーリングの目的を理解する

機械学習:中央化とスケーリングの目的を理解する' -> '機械学習:中央化とスケーリングの目的を理解する

変換器の使用(MinMaxScaler、StandardScaler、RobustScaler)

Scaling, Image by Flo on OpenSea

はじめに

この記事では、中央値とスケーリングの概念について紹介します。実世界のユースケースを使用して、データの中央化とスケール化の利点について説明します。

Scikit-Learnの準備ができたメソッドを使用して、単純な計算と説明に入ります。

技術的には、MinMaxScaler、StandardScaler、RobustScalerを比較します。これらは、前処理を容易にする変換器のメソッドの一部です。

最後に、データの中央化とスケーリングの目的を理解し、準備ができたScikit-Learnの変換器を使用できるようになります。

中央化とスケーリングとは?

概念の理解

スケーリングはデータを特定の範囲やスケールに変換し、中央化はデータポイントをシフトしてその平均がゼロになるようにします。以下に例を示します。

Image by Flo

データのスケーリングと中央化の効果が見られます。右側では、データが0周りに中央化され、短いスケール(X軸およびY軸)で表示されています。

利点

データの中央化とスケーリングにはいくつかの利点がありますが、スケーリングに関しては以下が重要です:

  • アルゴリズムのパフォーマンスの向上:距離を使用するK-Nearest Neighbors(KNN)やK-Meansなどのアルゴリズムは、データ間の距離に敏感です。データのスケールを縮小することで、パフォーマンスを向上させます。
  • 特徴量の正規化:データセットにスケールの異なる特徴量が含まれている場合、データのスケーリングにより、大きな値を持つ特徴量に過剰な重要性を与えることを避けることができます。
  • データの比較の改善:データのスケールが同じであるため、データの比較が容易になります。
  • 数値的な問題の防止:データのスケーリングにより、オーバーフローやアンダーフロー(数値が非常に小さいまたは大きい場合)などの問題を防ぐことができます。
  • 外れ値の影響の軽減

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AIによる気候変動対策の加速」

「ボストン・コンサルティング・グループとの新しいレポートによると、AIは世界の温室効果ガス排出量の5〜10%を軽減する可能...

データサイエンス

「GPTの内部- I:テキスト生成の理解」

「さまざまなドメインの同僚と定期的に関わりながら、データサイエンスの背景をほとんど持たない人々に機械学習の概念を伝え...

人工知能

RGBビデオから3Dビデオを作成する

「私は常に、私たちがデジタルな思い出を2Dの形式でアーカイブしていることに不満を感じてきました写真やビデオは鮮明さに欠...

AI研究

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相...

データサイエンス

LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして依然として人間も重要

LinkedInのフィードとインフラの最新更新について読むと、人間を中心に据えた原則を技術用語と実装に繋げる方法が解説されて...

機械学習

テストに合格する:NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

NVIDIAのAIプラットフォームは、最新のMLPerf業界ベンチマークにおいて、AIトレーニングとハイパフォーマンスコンピューティ...