偏相関:交絡因子による影響を除いた2つの変数の相関|擬似相関・偏相関係数【統計学・統計解析講義基礎】
偏相関とは交絡因子による影響を除いた2つの変数の相関。交絡因子があると、見せかけの相関関係(擬似相関)があるのでその場合偏相関を用いる。大きさを定量的に示すものが偏相関係数。偏相関係数をゼロとみなし、データとの適合性を検討して因果関係を探る多変量解析法がグラフィカルモデリング
見せかけの相関関係(擬似相関)
20-50歳代の男性会社員20名に対し、xを50m走のタイム、yを年収、zを年齢としてデータをとり、これらを散布図にし、50m走のタイムxと年収yとの相関係数r=0.88を得ました。
この結果は、「走るのが遅いほうが年収が多くなる」ことを示しているのでしょうか。
この理由は、背後に年齢という第3の変数zが交絡因子として存在し、xとzの間、およびyとzとの間に、それぞれ強い正の相関関係があり、そのために、xとyの間に、見かけ上の強い相関関係が生じているといえます。
このような相関関係を、「擬似相関」あるいは「見せかけの相関」とよびます。
いうなれば、「ないのにあるように見えるニセ相関」です。きちんと解釈しなければ危険であるといえます。
偏相関・偏相関係数
このような擬似相関が存在するかもしれない場合、偏相関を用いるとよいでしょう。
この例では、年齢zを20-50歳とするのではなく、例えば30歳代の男性会社員だけに限り、xとyの相関関係を見ればよいのです。
もう一つはxとy以外の変数zの影響を取り除いた後の相関関係を調べます。
このような概念を「偏相関」とよび、その大きさを定量的に示すものとして偏相関係数があります。
偏とはzを固定し、x、yを特別扱いしたことを意味しています。
この偏相関係数とは、次のように考えます。
xを目的変数、zを説明変数として回帰分析を行うと、zからxを当てる、x=0.0282×z+7.045+ex
という回帰式が得られます。
最後のexは、zとは別(無関係)の部分です。
実際、タイムxは年齢zの影響で決まる部分もありますが、zだけで決まるわけではありません。
影響をとり除いたのがこのexです。
また、yを目的変数、zを説明変数として同じように回帰分析を行うと、y=22.28×z−144.0+ey
という回帰式が得られ、最後のeyはzの影響を除いた年収です。
このexとeyの相関係数が、zの影響を除いたときのxとyの偏相関係数とよばれるもので、−0.054となり、0に近いことがわかります。
つまり、本当は相関関係はなかったのです。
ゼロに近い偏相関係数をゼロとみなし、さらにその専門家の技術的な知識を用いながら、データとの適合性を検討して因果関係を探る多変量解析法をグラフィカルモデリングといいます。
関連リンク