相関係数より散布図!仮説検定の落とし穴【ChatGPT統計解析】
相関係数の仮説検定にはあまり意味がないため、相関係数の値だけを見ずにまずは散布図を眺めることが重要です。相関係数の仮説検定では、有意差があっても相関関係があるとは限りません。例えば、調査によると、テレビゲームをする子どもはパソコンでもゲームをする傾向があり、相関係数は0.36、p<0.001ですが、この相関関係が意味のあるものとは限りません。日常生活の相関関係と統計学の相関関係は異なり、統計学では直線的な関係のみを指します。相関関係と因果関係を混同しないことが重要です。相関係数の値は、データの直線的な関係を数値で示しますが、相関係数が0でない場合でも必ずしも意味があるとは限りません。相関関係を理解するためには、相関係数の値に頼らず、まず散布図を確認することが必要です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
相関係数の仮説検定にはあまり意味がない
以下の文章は、某省庁によってまとめられた「子どもとテレビゲーム」に関する調査研究報告書からの一節です。
〇〇庁調査によれば、「ふだん学校のある日にどれくらいテレビゲームで遊ぶか」という質問に対し、2時間以上と答えた比率が小学生男子の43.3%、中学生男子の38.1%にも達する。今や日本の児童・青少年、とくに男子にとって、テレビゲームは遊びの世界の中心に位置している。
パソコンでゲームソフトを利用している人は、パソコンを利用しながらゲームソフトを利用しない人より、パソコン全般の利用頻度自体がやや小さい傾向にある。さらに、パソコンでゲームを利用している人ほどテレビゲームの利用頻度も高い(相関係数0.36,p<0.001)。ちなみに、パソコンでワープロソフトをよく利用している人ほどテレビゲームの利用頻度は低い(相関係数 -0.13、p<0.001)。
パソコンでゲームする人ほどテレビゲームもよくやるけど、パソコンでワープロソフトを使う人ほどテレビゲームはあまりやらない、ということらしいです。
これを、相関係数の値とp値から言っているのでしょう。
でも、相関係数と知っている人の中には、これらの値から本当にこんなこと言っちゃっていいの?と疑問に思う人もいるでしょう。
実際、相関があるとはいえない(相関係数の値が0に近い)ような状況であっても、有意差ありとなってしまうことがあります。
この例では、相関係数はそれぞれ0.36、−0.13です。
p値が両方とも0.001より小さいからといって、このような小さい相関係数の値でいかにも関係がありそうなことを言われても、だから何?という気がします。
日常生活の中での相関関係
相関という言葉、口に出して言うことは少ないかもしれませんが、結構いろいろなところで使われています。
例えば、テレビドラマのホームページを見たりすると、人物関係の相関図というものがあります。
親子関係や友人関係、上司と部下の関係などを図にまとめたものです。
「広辞苑」で相関関係の意味を調べてみると、
一方が他方との関係を離れては意味をなさないようなものの間の関係。父と子、右と左など。
と書かれています。
とにかく何かしら関係していれば、相関関係がある、ということになるようです。
統計学の中での相関関係
ところが、統計学の中での相関関係は、日常生活の中での相関関係とは違って、かなり限定された意味で使われます。
相関関係(統計学での意味):2つの変数間の直線的な関係
が統計学における相関関係の意味です。
図で表すと、ある変数XとYの間に直線的な関係があるときに、相関関係があることになります。
特に、一方の値が大きくなると他方の値も(直線的に)大きくなるとき、正の相関があると言い、一方の値が大きくなると他方の値が(直線的に)小さくなるとき、負の相関があると言います。
注意しなければならないのは、統計学における相関関係は、あくまでも直線的な関係についてのものです。
2つの変数の関係を図に表したものを散布図といいます。
相関関係と因果関係
相関関係と因果関係は、時々混同してしまっている人がいますが、これらは明確に使い分けなければなりません。
繰り返しになりますが、相関関係というのは、2つの変数間の直線的な関係のことを言います。
これがすべてで、直線的な関係さえあれば相関関係があるのです。
2つの変数のうち、どちらが原因でどちらが結果だということは、相関関係においては気にしないのです。
それに対して因果関係というのは、原因と結果の間の関係にあるものをいいます。
因果関係においては、どちらが原因でどちらが結果だということが大事で、その関係が必ずしも直線的である必要はないのです。
たとえば、BMI(Body Mass Index:体重(kg)/身長(m)の2乗)と腹囲(cm)の間には、正の相関があると考えられます。
BMIが大きい人ほど腹囲も大きいし、腹囲が大きいほどBMIも大きいだろうと考えられます。
しかし、これらの間には因果関係はありません。
BMIと腹囲のうち、どちらが原因でどちらが結果ということはありません。
相関係数とは
相関の強さ、すなわちXとYの関係性の強さを数値で示したものが相関係数です。
相関係数は、−1から1の間の値で評価されます。
完全にデータが直線上にあって、一方の値が大きくなると他方の値も大きくなるという正の相関があるときには、相関係数の値は1になります。
直線からの逸脱の度合いが大きくなるにしたがって、相関係数の値は0に近づいていきます。
同じように、完全にデータが直線上にあって、一方の値が大きくなると他方の値は小さくなるという負の相関があるときには、相関係数の値はー1となります。
直線からの逸脱の度合いが大きくなるにしたがって、相関係数の値は0に近づいていきます。
相関係数の値が0のときには、2つの変数の間に相関関係がない(無相関)ことになります。
無相関の場合は、一方の値が大きくなっても、他方の値が大きくなったり小さくなったりすることはありません。
相関係数の値
1に近づくほど強い正の相関
−1に近づくほど強い負の相関
0なら無相関(相関がない)
相関係数を計算すればOKではない
相関係数の値を見ると、ついついその数値ばかりが集中してしまいがちです。
しかし、それではいけないのです。
データが直線的な関係ではなく放物線的な関係にあったり、外れ値があったり、1つのデータだけで直線が決まっていたりする場合は、相関係数を計算することは望ましくありません。
相関係数の値だけを見るのではなくて、まずは散布図を眺めることが重要です。
相関係数の値を見るだけでは誤った判断をしかねないのです。
相関係数の仮説検定
散布図を眺めて、相関係数の値を見たとして・・・・「相関がある」とか「相関がない」とか二者択一的に白黒つけたい人も世の中にはきっといますよね。
そのような人のために、「仮説検定を用いることにより、2つの変数に有意な相関関係があるかないかを調べることが可能になります」などと書かれているものもあります。
相関係数の仮説検定では、帰無仮説は「相関係数=0」(2つの変数の間に直線的な関係はない)になります。
p値が小さければ(例えば5%よりも小さければ)、有意差ありとして、帰無仮説が間違っている、つまり相関係数は0ではない(2つの変数の間に直線的な関係がある)と判断することになります。
有意差なしであっても、相関係数は0である(2つの変数の間に直線的な関係はない)と結論づけることはできません。
相関係数の仮説検定は、「相関係数が0である」という仮説に対するものです。
それが否定できたからと言って、極端な話、相関係数が0.001であることは否定できていないのです。
関連リンク