偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】

偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】

偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】
偏相関は、交絡因子の影響を排除した二変数間の相関を指し、見せかけの相関(擬似相関)に対処するために使用される。例として、50m走のタイムと年収の相関が高いが、年齢という交絡因子を考慮すると実際の相関はないことが分かる。偏相関係数はこのような相関の大きさを示し、ゼロに近い場合、相関関係が実際には存在しないことを示唆する。この係数を基に、グラフィカルモデリングなどの多変量解析法を通じて、データの適合性を検討し、因果関係を探る。


目次  偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】

 

見せかけの相関関係(擬似相関)

 

20-50歳代の男性会社員20名に対し、xを50m走のタイム、yを年収、zを年齢としてデータをとり、これらを散布図にし、50m走のタイムxと年収yとの相関係数r=0.88を得ました。

 

この結果は、「走るのが遅いほうが年収が多くなる」ことを示しているのでしょうか。

 

この理由は、背後に年齢という第3の変数zが交絡因子として存在し、xとzの間、およびyとzとの間に、それぞれ強い正の相関関係があり、そのために、xとyの間に、見かけ上の強い相関関係が生じているといえます。

 

このような相関関係を、「擬似相関」あるいは「見せかけの相関」とよびます。

 

いうなれば、「ないのにあるように見えるニセ相関」です。きちんと解釈しなければ危険であるといえます。

 

 

偏相関・偏相関係数

 

このような擬似相関が存在するかもしれない場合、偏相関を用いるとよいでしょう。

 

この例では、年齢zを20-50歳とするのではなく、例えば30歳代の男性会社員だけに限り、xとyの相関関係を見ればよいのです。

 

もう一つはxとy以外の変数zの影響を取り除いた後の相関関係を調べます。

 

このような概念を「偏相関」とよび、その大きさを定量的に示すものとして偏相関係数があります。

 

偏とはzを固定し、x、yを特別扱いしたことを意味しています。

 

この偏相関係数とは、次のように考えます。

 

xを目的変数、zを説明変数として回帰分析を行うと、zからxを当てる、x=0.0282×z+7.045+ex

 

という回帰式が得られます。

 

最後のexは、zとは別(無関係)の部分です。

 

実際、タイムxは年齢zの影響で決まる部分もありますが、zだけで決まるわけではありません。

 

影響をとり除いたのがこのexです。

 

また、yを目的変数、zを説明変数として同じように回帰分析を行うと、y=22.28×z−144.0+ey

 

という回帰式が得られ、最後のeyはzの影響を除いた年収です。

 

このexとeyの相関係数が、zの影響を除いたときのxとyの偏相関係数とよばれるもので、−0.054となり、0に近いことがわかります。

 

つまり、本当は相関関係はなかったのです。

 

ゼロに近い偏相関係数をゼロとみなし、さらにその専門家の技術的な知識を用いながら、データとの適合性を検討して因果関係を探る多変量解析法をグラフィカルモデリングといいます。

 

ChatGPTに聞いてみた

 

プロンプト

 

あなたは最高のデータサイエンティストです。
偏相関で解き明かす擬似相関の謎について解説してください。
#制約条件:
ですます調の平易な日本語で
文字数は1000字程度
情報ソースも記述してください。

 

ChatGPTの回答

 

擬似相関とは、二つの変数が相関しているように見えるが、実際には直接的な因果関係がない現象です。このような現象が起こる主な原因の一つが偏相関です。

 

偏相関は、他の変数の影響を取り除いた後に残る二つの変数の相関を評価します。例えば、海岸でアイスクリームの売り上げと満足度が高いことが相関しているように見えますが、実際には夏の暑い日に両方が増加するため、この関連は偽のものです。

 

この擬似相関の謎を解明するには、偏相関を用いて他の要因の影響を排除し、真の相関を調べる必要があります。これにより、関連性のある変数とそうでない変数を見分けることができます。

 

情報ソース:
Richard A. Feinberg and W. Edwards Deming, "A Coefficient of Association for Ordered Categorical Data," American Sociological Review, Vol. 33, No. 4 (August 1968), pp. 545-552.

 

 

偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】

偏相関で解き明かす擬似相関の謎【ChatGPT統計解析】