共分散で見る、変数XとYの関係性の探求【ChatGPT統計解析】
共分散は、2つの変数XとYの偏差の積の合計をデータ数で割って計算されます。具体的には、例えば身長と体重や世帯員数と商品の購入量など、2種類のデータが与えられた場合、変数XとYの偏差の相乗和を合計し、その結果をデータの数で割ります。共分散の計算式は、偏差相乗和の合計をデータ数で割ったものであり、この値はプラスにもマイナスにもなり得ます。この符号は、個別データの変数がプラスかマイナスのどちらの値を取るかに依存し、偏差の計算では値の平均が基準となります。一般的に分散とは異なり、共分散は2つの変数の関連性を示し、データがどのように分布するかを示す指標として使用されます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
共分散(covariance):変数XとYの偏差の相乗和(積和)/n
いま変数XとYがあるとします。
データとしては、身長と体重、世帯員数と商品の購入量など、要するに2種類のデータが、n人あるいはn世帯について与えられるとします。
それぞれの分散については、次の算式にしたがって計算することがっできます。
あらためて断っておくと、SSは偏差平方和、Vは分散です。
ただし、これらの記号にあとに、変数Xについては小文字xを添え、変数Yについては小文字yを添えて、互いに区別することにしました。
変数Xについて:
偏差平方和 SSx=(x1−xm)2+(x2−xm)2+・・・+(xn−xm)2
分散 Vx=SSx/n
変数Yについて:
偏差平方和 SSy=(y1−ym)2+(y2−ym)2+・・・+(yn−ym)2
分散 Vy=SSy/n
ここで共分散(covariance)は、2つの変数XとYの偏差の相乗和(積和)の合計で表します。
変数XとYの共分散について:
偏差相乗和=(Xの偏差×Yの偏差)の合計
Sxy=(x1−xm)(y1−ym)+(x2−xm)(y2−ym)+・・・+(xn−xm)(yn−ym)
共分散 Vxy=Sxy/n
要するに、1つの変数ならその2乗、2つの変数ならそれらの掛け算、というわけです。
共分散とただの分散との違いはそれだけであって、共分散だからといって、とくに込み入った計算手続きが必要というわけではありません。
共分散はマイナスにもなる
偏差の2乗はもちろんプラスです。
もちろん偏差がゼロならゼロになりますが、マイナスにはなりません。
したがって、それらを合計した偏差平方和、さらに分散は必ずゼロかプラスになります。
少なくともマイナスになることはありません。
これと違って、共分散はプラスにもなるし、マイナスになることもあります。
個々の偏差自体がプラスとマイナスのどちらの値もまんべんなくとり、いずれか一方の値のみをとることはありません。
これは偏差の計がゼロとなるように平均値が計算されているからです。
ある個別データの2つの変数の偏差がどちらもプラス、またはどちらもマイナスの場合は、同符号ですから掛け算するとプラスになります。
一方、2つの変数の値がプラス、マイナスの異符号をとる個別データでは、掛け算するとマイナスになります。
このようにややこしいので、それらをすべて合計してみなければ、データ全体としてのSxyの符号がプラス、マイナスのどちらになるか、判断がつきません。
たとえば夫婦の性格をプラス、マイナスで表し、結婚は掛け算とすると、似たもの夫婦が多ければプラスとなり、性格の反対の夫婦が多ければマイナスとなるのです。
関連リンク