「次元の呪い、解明される」

『次元の謎が解き明かされる』

次元の呪いの数学的な直感を理解する

Image source: https://pixabay.com/illustrations/ancient-art-background-cosmos-dark-764930/

次元の呪いとは、高次元データを解析する際に生じる問題のことです。データセットの次元または次元は、そのデータセット内の線形独立な特徴の数を指します。したがって、高次元データセットとは、特徴の数が多いデータセットのことを指します。この用語は、ベルマンが1961年に、関数が任意の精度で推定するために必要なサンプル数が、関数が取るパラメータ数に比例して指数関数的に増加することを観察した際に初めて命名しました。

本記事では、高次元データセットを解析する際に生じる数学的な問題を詳しく説明します。これらの問題は直感に反するように思えるかもしれませんが、直感的に説明することができます。純粋に理論的な議論ではなく、Pythonを使用して高次元データセットを作成し、解析し、次元の呪いが実際にどのように現れるかを見てみましょう。本記事では、特に明記されていない限り、すべての画像は著者によるものです。

データセットの次元

前述のように、データセットの次元は、そのデータセットが持つ線形独立な特徴の数と定義されます。線形独立な特徴は、そのデータセット内の他の特徴の線形結合として表されることはありません。したがって、データセットの特徴または列が他の特徴の線形結合である場合、そのデータセットの次元には寄与しません。たとえば、図1は2つのデータセットを示しています。最初のデータセットは2つの線形独立な列を持ち、その次元は2です。2番目のデータセットでは、1つの列が別の列の倍数であるため、独立な特徴は1つしかありません。このデータセットのプロットでは、二つの特徴を持っているにもかかわらず、すべてのデータポイントが1次元の直線上にあります。したがって、このデータセットの次元は1です。

Figure 1

次元の効果

次元の呪いの主な原因は、次元が体積に与える影響です。ここでは、データセットの幾何学的な解釈に焦点を当てます. 一般的には…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more