直線で語れない!相関係数の罠と真実【ChatGPT統計解析】
相関係数は直線的な関係を持つデータにのみ有効であり、非直線的な関係が想定される場合には適用すべきではありません。例えば、コーヒーのおいしさと甘みの関係は直線的ではなく、適切な甘さが最も美味と感じられるため、相関係数はほぼゼロですが、これは関係がないわけではありません。さらに、相関係数はその計算されたデータの範囲内でのみ意味を持ち、異常値が存在する場合、それが高い値を生むことがあります。例えば、都市ごとの平均所得と人口の関係で大都市を異常値と見なすと、右上がりの傾向が強調され、相関係数は実際の関係を誤って表すことになります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
相関については誤りやすいいくつかの問題があるので、そのうちのいくつかをあげて説明しましょう。
直線的でない関係
たとえばコーヒーのおいしさと甘みの強さとの関係は、好みにもよりますが甘味が足りないのも甘すぎるのもおいしくありません。
ちょうどよい甘さ加減のときもっともおいしく感じられます。
実際にこの場合相関係数を計算するとゼロに近くなりますが、しかし「だから関係がない」とは言えません。
関係は「大あり」なのです。
非直線的関係が想定されるときは、相関係数の計算をしてはいけません。
相関係数の適用範囲
新製品の評価と売上高にはあまり相関関係がないということがよく言われています。
発売してからの広告とか販売の努力が、製品のよしあし以上にものをいうからです。
したがって、発売前の製品テストは不要である、という話になりそうです。
しかし、この主張は短絡的であり、大いに疑問があるといえます。なぜでしょうか。
そもそも製品が発売されるのは、あるレベル以上に製品テストの結果が良いからです。
レベル以下のものは発売されません。
もし、テストの結果が悪い場合も発売されたら、おそらく評価と売上高は高い相関関係になるに違いありません。
また、新製品を新入社員に置き換えると、入社時の試験の成績とその後の実績とに相関関係がないとして、入社試験無用論がまかり通ったりするかもしれません。
つまり、相関係数は計算データの範囲内においてのみ有効なのです。
発売した製品や入社した社員に限られた、その範囲内で認められる事実を、あたかも普遍的法則のように思い込んではいけないのです。
異常値で高くなる相関
相関関係があまりない場合でも、異常値があると相関係数が高くなる、という現象が起こります。
いつもそうとはいえませんが、経験的にはだいたいそのようです。
たとえば都市別の、1人平均所得のデータ(所得水準)があるとします。
そして、横軸に都市人口を縦軸にそのデータをとって、各都市をプロットします。
大都市を異常値とみなすことにすると、そのかけ離れた点の位置によって、全体としての右上がりの傾向が強調されます。
そして、ほとんどこの傾向によって相関係数が決定されてしまいます。
数の多い中小都市の内部でのひそやかな傾向は無視されてしまいます。
関連リンク