相関から因果を読み解く!データの背後関係【ChatGPT統計解析】

相関から因果を読み解く!データの背後関係【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

相関から因果を読み解く!データの背後関係【ChatGPT統計解析】

相関から因果を読み解く!データの背後関係【ChatGPT統計解析】
相関関係は、2つの変数間で一方が変化すると、もう一方も変化する関係を指し、その強さは相関係数によって表される。一方が他方に影響を与える因果関係とは異なり、相関関係だけでは一方が他方の原因であるとは限らないが、因果関係の存在を示唆するための手がかりとなる。実際の因果関係を確認するには、時間的先行性や外的な要因による影響を排除する必要があり、相関関係の存在自体が因果関係の確証ではない。相関係数が正または負の値を取ることで、変数間の関係の方向性が示される。ただし、相関関係が因果関係の必要条件であっても、それだけで因果関係があるとは限らず、他の要因の考慮も必要である。

相関から因果を読み解く!データの背後関係【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


 

相関関係:2変数間の関係

 

2つの変数についてデータを測定すると、それらの変数の間に、一方が変化するとそれにともなってもう一方も変化するといった関係が存在する場合があります。

 

例えば、身長が高い人ほど体重も重い、といった関係があるとき、2つの変数の間には相関関係があるといいます。

 

また、2つの変数間に相関関係があり、一方が変化すると、その影響を受けてもう一方も変化するといった関係が存在する場合があります。

 

例えば、賃貸アパートの家賃は、駅に近いと高く、駅から離れるほど安くなります。これは駅までの距離が原因となって、家賃の価格が決まるという結果になっています。

 

このような場合を、因果関係があるといいます。

 

相関の大きさ(相関係数)

 

相関関係の強さの程度は、相関係数で表すことができます。

 

連続データの変数xとyの相関係数rxy(ピアソンの積率相関係数)は以下の式で表されます。

 

相関係数rxy=(xの標準得点×yの標準得点)の総和/データの数

 

      =(xとyの共分散)/((xの標準偏差)×(yの標準偏差))

 

相関係数の取りうる値の範囲は−1〜1で、1に近いほど正の相関関係が強く、−1に近いほど負の相関関係が強いことになります。

 

 

相関関係と因果関係

 

相関関係は2つの変数の関係を示すものですが、因果関係は相関関係が認められる2つの変数のうち、一方が原因、他方が結果という関係になっています。

 

例えば、テスト勉強に費やした時間とテストの点数を考えると、おそらく正の相関関係が存在するでしょう。

 

このとき、勉強に費やした時間がテストの点数に影響すると考えられるので、勉強に費やした時間(原因)とテストの点数(結果)との間には因果関係が存在すると考えられます。

 

テストの点数が良かったから勉強時間が増えた、とは考えません。

 

これは、時間的に原因(勉強に費やした時間)が先で、結果(テストの点数)が後に起こった事象だからです。

 

このことは因果関係が成立するための条件でもあります。

 

顔のしわの数と年収との間には正の相関があったとしましょう。

 

しわの少ない若者の年収はおそらくそう高くはないでしょう。

 

しかし、年収が増えたから顔のしわが増えたとは考えにくいです。顔のしわが増えたから年収が増えたともいえません。

 

これらの間には、どちらが原因でどちらがその結果かという関係を見出すことができません。

 

これは背後に「年齢」という要因があり、年齢がそれぞれの変数に関係していると考えるのが自然です。

 

このように見かけ上は相関関係が存在しても、背後に別の要因の影響を受けているような場合を、見かけ上の相関(あるいは擬似相関)といいます。

 

また、栄養ドリンクの摂取量と疲労感を考えたときに正の相関があったとしましょう。

 

このとき、栄養ドリンクを飲めば飲むほど疲労感がたまる、すなわち栄養ドリンクの摂取が原因でその結果が「疲労感が増した」と推論することは、逆方向の誤った因果関係を見出すことになります。

 

この例とは逆に、相関係数が大きくなくても因果関係が認められる場合もあります。

 

例えば、気温と快適度の関係は、相関係数は0.05であり(ピアソンの積率)相関係数にはその関係性の強さは現れませんが、非線形の相関関係がみられます。

 

20℃くらいが最も快適だと仮定すると、気温(原因)と快適度(結果)に因果関係が認められることは自明と考えられるので、相関係数の値だけで因果関係の存否を判断することはできません

 

因果関係が成立するための必要条件

 

2つの変数の間に因果関係が存在することを認めるための必要条件として、いくつかの条件が示されています。

 

2つの変数をxとyとすると、xが原因、yが結果という因果関係が成り立つためには、

 

@2つの変数間に(擬似相関でない)相関関係がある

 

Axがyよりも時間的に先に生じている

 

Bxとyの関係が時間や場所が違っても維持される

 

Cxが原因であり、yが結果であることに既知の事実と矛盾がない

 

などがあげられます。

 

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
相関関係と因果関係の違いについて解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

相関関係ってのは、AさんとBさんがいつも一緒にいるみたいなもの。Aさんが動くとBさんも動く。でも、これだけじゃAさんが動かせてるのか、それとも別の誰かが両方を動かしてるのかわからないんだ。それを数で示したのが相関係数。数字が大きいほど、よく一緒に動いてるってこと。一方、因果関係とは、Aさんが動いたからBさんが動いた、つまりAさんが原因でBさんが結果ってこと。相関関係があっても、Aさんの動きがBさんを動かしてるとは限らないんだ。例えば、暑い日はアイスがよく売れるけど、アイスが売れるから暑くなるわけじゃないよね。つまり、相関関係は「一緒に動くこと」を示し、因果関係は「この動きがあの動きを引き起こす」ってことを示すんだ。数字で仲良し度を示すのが相関、Aさんの行動がBさんに影響を与えるのが因果関係。これが大事な違いだよ。

 

 

相関から因果を読み解く!データの背後関係【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

相関から因果を読み解く!データの背後関係【ChatGPT統計解析】

相関から因果を読み解く!データの背後関係【ChatGPT統計解析】