次元の呪い：高次元データ分析の落とし穴【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

次元の呪いとは、高次元空間でデータがまばらになる現象を指します。例えば、2次元空間では象限が4つしかありませんが、10次元では1024個の象限が存在し、1000個のデータ点では各象限に平均1つずつしか存在しません。これにより、最近傍法などのデータ間の距離に依存する手法が有効に機能しにくくなります。また、高次元空間ではデータが中心部よりも周辺部に偏る傾向があり、次元数が増えるほど「平均的な人」が少なくなる現象も観察されます。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次次元の呪い：高次元データ分析の落とし穴【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

次元の呪い

高次元空間ではデータ点がまばらになる現象をいいます。

２次元空間では第１から第４まで象限が４つしかないが、10次元空間では、２の10乗つまり1024個もあり、1000個のデータでも各象限に平均１つずつしかデータがないことになります。

最近隣法などの各データ点の近さに依存した手法では、各データがまばらにしか存在しないため、「近いデータ」がほとんどない状態であり、手法が破綻する可能性が高くなります。

また、高次元空間では、中心部より周辺部のデータが多くなるという現象も生じます。

たとえば、p次元空間における超立方体内に一様にデータがあるとき、立方体の各表面から100r/2%以内にあるデータの割合は（1－r）のp乗となりますが、pが大きいときにはほとんど周辺部に存在してしまいます。

この現象は、評価項目が多くなると「何事にも平均的な人間」はかえって少ないことを表しているともいえます。

関連記事

製品の臨床開発

インターネット

内部妥当性と外部妥当性

統計上の灯火管制

偏差値とは

パス解析の医療モデルと心理社会学的モデル

自己組織化マップ

緩和医療（ケア）の役割

住宅と土地の統計学

非実験研究

前へ

1

2

3

4

5

6

次へ

【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
【医療統計解析】

【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

Google Gemini・Python・エクセルを使った講義で最速マスター

次元の呪い：高次元データ分析の落とし穴【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

次元の呪い：高次元データ分析の落とし穴【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

次元の呪い

サブメニュー

最新記事