次元の呪い|【統計学・統計解析講義応用】
次元の呪い
高次元空間ではデータ点がまばらになる現象をいいます。
2次元空間では第1から第4まで象限が4つしかないが、10次元空間では、2の10乗つまり1024個もあり、1000個のデータでも各象限に平均1つずつしかデータがないことになります。
最近隣法などの各データ点の近さに依存した手法では、各データがまばらにしか存在しないため、「近いデータ」がほとんどない状態であり、手法が破綻する可能性が高くなります。
また、高次元空間では、中心部より周辺部のデータが多くなるという現象も生じます。
たとえば、p次元空間における超立方体内に一様にデータがあるとき、立方体の各表面から100r/2%以内にあるデータの割合は(1−r)のp乗となりますが、pが大きいときにはほとんど周辺部に存在してしまいます。
この現象は、評価項目が多くなると「何事にも平均的な人間」はかえって少ないことを表しているともいえます。
関連記事