次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】

次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】

次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】
次元の呪いとは、高次元空間でデータがまばらになる現象を指します。例えば、2次元空間では象限が4つしかありませんが、10次元では1024個の象限が存在し、1000個のデータ点では各象限に平均1つずつしか存在しません。これにより、最近傍法などのデータ間の距離に依存する手法が有効に機能しにくくなります。また、高次元空間ではデータが中心部よりも周辺部に偏る傾向があり、次元数が増えるほど「平均的な人」が少なくなる現象も観察されます。

次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】

 

 

次元の呪い

 

高次元空間ではデータ点がまばらになる現象をいいます。

 

2次元空間では第1から第4まで象限が4つしかないが、10次元空間では、2の10乗つまり1024個もあり、1000個のデータでも各象限に平均1つずつしかデータがないことになります。

 

最近隣法などの各データ点の近さに依存した手法では、各データがまばらにしか存在しないため、「近いデータ」がほとんどない状態であり、手法が破綻する可能性が高くなります。

 

 

また、高次元空間では、中心部より周辺部のデータが多くなるという現象も生じます。

 

たとえば、p次元空間における超立方体内に一様にデータがあるとき、立方体の各表面から100r/2%以内にあるデータの割合は(1−r)のp乗となりますが、pが大きいときにはほとんど周辺部に存在してしまいます。

 

この現象は、評価項目が多くなると「何事にも平均的な人間」はかえって少ないことを表しているともいえます。

 

 

次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】

次元の呪い:高次元データ分析の落とし穴【ChatGPT統計解析】