Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における相関についての問題【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における相関についての問題【統計解析講義基礎】

統計学における相関についての問題【統計解析講義基礎】


統計学における相関についての問題【統計解析講義基礎】

 

相関については誤りやすいいくつかの問題があるので、そのうちのいくつかをあげて説明しましょう。

 

直線的でない関係

 

たとえばコーヒーのおいしさと甘みの強さとの関係は、好みにもよりますが甘味が足りないのも甘すぎるのもおいしくありません。

 

ちょうどよい甘さ加減のときもっともおいしく感じられます。

 

実際にこの場合相関係数を計算するとゼロに近くなりますが、しかし「だから関係がない」とは言えません。

 

関係は「大あり」なのです。

 

非直線的関係が想定されるときは、相関係数の計算をしてはいけません。

 

相関係数の適用範囲

 

新製品の評価と売上高にはあまり相関がないということがよく言われています。

 

発売してからの広告とか販売の努力が、製品のよしあし以上にものをいうからです。

 

したがって、発売前の製品テストは不要である、という話になりそうです。

 

しかし、この主張は短絡的であり、大いに疑問があるといえます。なぜでしょうか。

 

そもそも製品が発売されるのは、あるレベル以上に製品テストの結果が良いからです。

 

レベル以下のものは発売されません。

 

もし、テストの結果が悪い場合も発売されたら、おそらく評価と売上高は高い相関になるに違いありません。

 

また、新製品を新入社員に置き換えると、入社時の試験の成績とその後の実績とに相関がないとして、入社試験無用論がまかり通ったりするかもしれません。

 

つまり、相関係数は計算データの範囲内においてのみ有効なのです。

 

発売した製品や入社した社員に限られた、その範囲内で認められる事実を、あたかも普遍的法則のように思い込んではいけないのです。

 

異常値で高くなる相関

 

相関があまりない場合でも、異常値があると相関係数が高くなる、という現象が起こります。

 

いつもそうとはいえませんが、経験的にはだいたいそのようです。

 

たとえば都市別の、1人平均所得のデータ(所得水準)があるとします。

 

そして、横軸に都市人口を縦軸にそのデータをとって、各都市をプロットします。

 

大都市を異常値とみなすことにすると、そのかけ離れた点の位置によって、全体としての右上がりの傾向が強調されます。

 

そして、ほとんどこの傾向によって相関係数が決定されてしまいます。

 

数の多い中小都市の内部でのひそやかな傾向は無視されてしまいます。

セミナー詳細こちら                    解析ご相談こちら


 

統計学における相関についての問題【統計解析講義基礎】

統計学における相関についての問題【統計解析講義基礎】

統計学における相関についての問題【統計解析講義基礎】