Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における層別と相関【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における層別と相関【統計解析講義基礎】

統計学における層別と相関【統計解析講義基礎】


統計学における層別と相関【統計解析講義基礎】

 

国民所得と酒の消費量の間には正の相関がある。だから、国民が酒をたくさん飲めば所得が増える。

 

という記述は、何がどうおかしいでしょうか。

 

相関関係は、「因果関係」について何も述べていません。

 

つまり、「所得が増えたから酒をたくさん飲む」のか、「酒をたくさん飲むから所得が増えるのか」という因果関係については、相関関係自体は前者であるとも後者であるとも言っていません。

 

この例の場合は誰でも前者とわかりますが、それは常識で言っているだけであって、統計学とは別の話です。

 

したがって、このような常識がはたらかないような問題では、相関関係から不用意に因果関係を推測しないように注意する必要があります。

 

ある電器製品の普及台数は、発売以来毎年倍に増えている。

 

発売後の年数と普及台数の相関係数は、非常に強い相関であるから、ほぼ1である。

 

という記述はどうでしょうか。

 

年数と台数の相関関係が1である、とは、年数と台数の増減に直線的な関係があることを意味しています。

 

この問題の場合は、年数と台数の間に(毎年倍に増えているという仮定から)指数関数の関係があるので、相関係数はほぼ1にはなりません。

 

このような場合、台数のほうを対数関数で変換すると、年数と「台数の対数」の増減に直線的な関係ができ、相関関係としてとり扱うことができます。

 

層別と相関

 

小学生については、身体が大きいと試験の成績が良い、という説があります。

 

明らかにおかしい話ですが、データをとるとそうした分布が見られます。

 

種明かしをすると、これは、小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。

 

こういう場合ならば、体の大きさと試験の成績には正の相関関係が見られるはずです。

 

これは、学年と体格、および学年と成績という変量の間に、それぞれ相関関係があるために、本来関係はないはずの体格と成績の間にも相関が現れるという現象です。

 

これをみかけ上の相関(擬似相関)といいます。

 

小学1年生と6年生では体格は大きく違うのはあたりまえです。

 

体格の違いを問題にするには、各学年を別々に考え、1つの学年のなかでの体格の違いを問題にする必要があります。

 

このように、ほぼ均質と思われるグループ(ここでは学年)にデータ群を分けることを層別といいます。

 

さて、この問題で、体格と成績の間には正の相関関係があるわけですから、これは図のような分布をしていることになります。

 

しかし、この分布を層別にしてみると、図のように、各学年に対応する6つの分布が重なっているものと考えられます。

 

各々の分布を別々に見たとき、もし各学年の分布が図のようであれば、それぞれの分布では体格と成績には相関がないことがわかります。

 

このように学年の影響を除いた相関係数を求めるには、図の6つの分布を図のように1箇所に重ねてしまい、その重なった分布に対して相関係数を求めればよいことになります。

 

このような操作をして得られる相関係数を偏相関係数といいます。

 

偏相関係数は、簡単に言えば、x、y、zの3つの変量を軸とする3次元の散布図を考えて、分布をz軸のまわりに移動したとするとき、分母はx、yそれぞれのばらつき、分子はx、yの共分散にそれぞれ相当する量になっています。

 

さて、ここまでの説明を読んで、では、成績の影響を除いた、学年と体格の相関もほとんどないことにならないのか、と思った人もいるのではないでしょうか。
これは、偏相関係数を求める式で、x、y、zをy、z、xに入れ替えてもほとんど同じ式が得られるように、数式の上では正しい結論です。

 

しかし、実際には意味のない結論です。なぜならば、体格と成績の間の、見かけ上の相関は、体格と成績に相関があるように見えるが、じつは「学年」という隠れた量があって、学年が成績、体格それぞれの大小に影響している、すなわち、

 

学年⇒成績、学年⇒体格 という因果関係がある

 

という「常識」から導かれるものだからです。

 

しかし、その「常識」が正しいかどうかは、相関係数や偏相関係数からはわからず、統計学の外からの考察が必要です。

 

相関係数が因果関係とは異なる例として、酒を飲めば収入が増える?という例をあげました。

 

この例がおかしいことは、常識ですぐにわかります。しかし、少々太っているほうが長生きできるという例だとどうでしょうか。

 

一生懸命ダイエットするより、少し太り気味のほうがいいんだ、と思いたくなりますが、もしかしたら「年をとっても太れるほど、胃腸が丈夫で健康だから、長生きできる」のかもしれません。

 

どちらなのかは、常識によっても、統計学によってもわからず、医学そのもののさらなる研究が必要です。

セミナー詳細こちら                    解析ご相談こちら


 

統計学における層別と相関【統計解析講義基礎】

統計学における層別と相関【統計解析講義基礎】

統計学における層別と相関【統計解析講義基礎】