相関と因果の迷宮!擬似相関の罠を解き明かす【ChatGPT統計解析】
統計学において、相関関係と因果関係を混同しないことが重要です。相関関係が存在するからと言って、必ずしも因果関係があるわけではなく、見かけ上の相関(擬似相関)が存在する場合があります。この擬似相関を解決するためには、データを均質なグループに分ける層別方法や、偏相関係数を用いることが効果的です。層別では、関連しないと思われる変数間の相関を明らかにするために、データ群をより均一なグループに分割します。偏相関係数は、他の変数の影響を除外して、二つの変数間の相関を調べる手法です。これにより、隠れた変数による見かけ上の相関を排除し、より正確な関係性を明らかにすることが可能になります。しかし、相関係数や偏相関係数だけでは、因果関係を断定できず、統計学外からの考察が必要になることもあります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
相関関係と因果関係
国民所得と酒の消費量の間には正の相関がある。だから、国民が酒をたくさん飲めば所得が増える。
という記述は、何がどうおかしいでしょうか。
相関関係は、「因果関係」について何も述べていません。
つまり、「所得が増えたから酒をたくさん飲む」のか、「酒をたくさん飲むから所得が増えるのか」という因果関係については、相関関係自体は前者であるとも後者であるとも言っていません。
この例の場合は誰でも前者とわかりますが、それは常識で言っているだけであって、統計学とは別の話です。
したがって、このような常識がはたらかないような問題では、相関関係から不用意に因果関係を推測しないように注意する必要があります。
ある電器製品の普及台数は、発売以来毎年倍に増えている。
発売後の年数と普及台数の相関係数は、非常に強い相関であるから、ほぼ1である。
という記述はどうでしょうか。
年数と台数の相関係数が1である、とは、年数と台数の増減に直線的な関係があることを意味しています。
この問題の場合は、年数と台数の間に(毎年倍に増えているという仮定から)指数関数の関係があるので、相関係数はほぼ1にはなりません。
このような場合、台数のほうを対数関数で変換すると、年数と「台数の対数」の増減に直線的な関係ができ、相関関係としてとり扱うことができます。
擬似相関と層別
小学生については、身体が大きいと試験の成績が良い、という説があります。
明らかにおかしい話ですが、データをとるとそうした分布が見られます。
種明かしをすると、これは、小学校の全学年の児童を対象に同じ問題で試験をした場合の話でした。
こういう場合ならば、体の大きさと試験の成績には正の相関関係が見られるはずです。
これは、学年と体格、および学年と成績という変量の間に、それぞれ相関関係があるために、本来関係はないはずの体格と成績の間にも相関が現れるという現象です。
これをみかけ上の相関(擬似相関)といいます。
小学1年生と6年生では体格は大きく違うのはあたりまえです。
体格の違いを問題にするには、各学年を別々に考え、1つの学年のなかでの体格の違いを問題にする必要があります。
このように、ほぼ均質と思われるグループ(ここでは学年)にデータ群を分けることを層別といいます。
体格と成績の間には正の相関関係があります。
しかし、この分布を層別にしてみると、各学年に対応する6つの分布が重なっているものと考えられます。
各々の分布を別々に見たとき、それぞれの分布では体格と成績には相関がなくなることがあります。
偏相関係数
このように学年の影響を除いた相関係数を求めるには、複数の分布を1箇所に重ねてしまい、その重なった分布に対して相関係数を求めればよいことになります。
このような操作をして得られる相関係数を偏相関係数といいます。
偏相関係数は、簡単に言えば、x、y、zの3つの変量を軸とする3次元の散布図を考えて、分布をz軸のまわりに移動したとするとき、分母はx、yそれぞれのばらつき、分子はx、yの共分散にそれぞれ相当する量になっています。
さて、ここまでの説明を読んで、では、成績の影響を除いた、学年と体格の相関もほとんどないことにならないのか、と思った人もいるのではないでしょうか。
これは、偏相関係数を求める式で、x、y、zをy、z、xに入れ替えてもほとんど同じ式が得られるように、数式の上では正しい結論です。
しかし、実際には意味のない結論です。なぜならば、体格と成績の間の、見かけ上の相関は、体格と成績に相関があるように見えるが、じつは「学年」という隠れた量があって、学年が成績、体格それぞれの大小に影響している、すなわち、
学年⇒成績、学年⇒体格 という因果関係がある
という「常識」から導かれるものだからです。
しかし、その「常識」が正しいかどうかは、相関係数や偏相関係数からはわからず、統計学の外からの考察が必要です。
相関係数が因果関係とは異なる例として、酒を飲めば収入が増える?という例をあげました。
この例がおかしいことは、常識ですぐにわかります。しかし、少々太っているほうが長生きできるという例だとどうでしょうか。
一生懸命ダイエットするより、少し太り気味のほうがいいんだ、と思いたくなりますが、もしかしたら「年をとっても太れるほど、胃腸が丈夫で健康だから、長生きできる」のかもしれません。
どちらなのかは、常識によっても、統計学によってもわからず、医学そのもののさらなる研究が必要です。
関連リンク