Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における共分散【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における共分散【統計解析講義基礎】

統計学における共分散【統計解析講義基礎】


統計学における共分散【統計解析講義基礎】

偏差の相乗和

 

いま変数XとYがあるとします。

 

データとしては、身長と体重、世帯員数と商品の購入量など、要するに2種類のデータが、n人あるいはn世帯について与えられるとします。

 

それぞれの分散については、次の算式にしたがって計算することがっできます。

 

あらためて断っておくと、SSは偏差平方和、Vは分散です。

 

ただし、これらの記号にあとに、変数Xについては小文字xを添え、変数Yについては小文字yを添えて、互いに区別することにしました。

 

変数Xについて:

 

偏差平方和 SSx=(x1−xm)2+(x2−xm)2+・・・+(xn−xm)2

 

分散 Vx=SSx/n

 

変数Yについて:

 

偏差平方和 SSy=(y1−ym)2+(y2−ym)2+・・・+(yn−ym)2

 

分散 Vy=SSy/n

 

ここで共分散(covariance)は、2つの変数XとYの偏差の相乗和(積和)の合計で表します。

 

変数XとYの共分散について:

 

偏差相乗和=(Xの偏差×Yの偏差)の合計

 

Sxy=(x1−xm)(y1−ym)+(x2−xm)(y2−ym)+・・・+(xn−xm)(yn−ym)

 

共分散 Vxy=Sxy/n

 

要するに、1つの変数ならその2乗、2つの変数ならそれらの掛け算、というわけです。

 

共分散とただの分散との違いはそれだけであって、共分散だからといって、とくに込み入った計算手続きが必要というわけではありません。

 

共分散はマイナスにもなる

 

偏差の2乗はもちろんプラスです。

 

もちろん偏差がゼロならゼロになりますが、マイナスにはなりません。

 

したがって、それらを合計した偏差平方和、さらに分散は必ずゼロかプラスになります。

 

少なくともマイナスになることはありません。

 

これと違って、共分散はプラスにもなるし、マイナスになることもあります。

 

個々の偏差自体がプラスとマイナスのどちらの値もまんべんなくとり、いずれか一方の値のみをとることはありません。

 

これは偏差の計がゼロとなるように平均値が計算されているからです。

 

ある個別データの2つの変数の偏差がどちらもプラス、またはどちらもマイナスの場合は、同符号ですから掛け算するとプラスになります。

 

一方、2つの変数の値がプラス、マイナスの異符号をとる個別データでは、掛け算するとマイナスになります。

 

このようにややこしいので、それらをすべて合計してみなければ、データ全体としてのSxyの符号がプラス、マイナスのどちらになるか、判断がつきません。

 

たとえば夫婦の性格をプラス、マイナスで表し、結婚は掛け算とすると、似たもの夫婦が多ければプラスとなり、性格の反対の夫婦が多ければマイナスとなるのです。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学における共分散【統計解析講義基礎】

統計学における共分散【統計解析講義基礎】

統計学における共分散【統計解析講義基礎】