次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】
次元の呪いとは、高次元空間でデータがまばらになる現象を指します。例えば、2次元空間では象限が4つしかありませんが、10次元では1024個の象限が存在し、1000個のデータ点では各象限に平均1つずつしか存在しません。これにより、最近傍法などのデータ間の距離に依存する手法が有効に機能しにくくなります。また、高次元空間ではデータが中心部よりも周辺部に偏る傾向があり、次元数が増えるほど「平均的な人」が少なくなる現象も観察されます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
次元の呪い
高次元空間ではデータ点がまばらになる現象をいいます。
2次元空間では第1から第4まで象限が4つしかないが、10次元空間では、2の10乗つまり1024個もあり、1000個のデータでも各象限に平均1つずつしかデータがないことになります。
最近隣法などの各データ点の近さに依存した手法では、各データがまばらにしか存在しないため、「近いデータ」がほとんどない状態であり、手法が破綻する可能性が高くなります。
また、高次元空間では、中心部より周辺部のデータが多くなるという現象も生じます。
たとえば、p次元空間における超立方体内に一様にデータがあるとき、立方体の各表面から100r/2%以内にあるデータの割合は(1−r)のp乗となりますが、pが大きいときにはほとんど周辺部に存在してしまいます。
この現象は、評価項目が多くなると「何事にも平均的な人間」はかえって少ないことを表しているともいえます。
関連記事