分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】

分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】

分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】
分散(Variance)はデータの広がり、ばらつきの尺度で、偏差平方和÷データ数で計算。不偏分散は偏差平方和÷自由度。標準偏差は分散の平方根


目次  分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】

 

分散(Variance):ばらつきの尺度

 

データがどこを中心として分布しているのかを示すには、平均値が便利です。

 

一方、データがどの程度ばらついているのか、ばらばらに散っているのかの目安としては、どのような量を考えればいいでしょうか。

 

データの平均からのずれは「偏差」と呼びます。偏差は、たしかにばらつきの目安として直感的でわかりやすいです。

 

しかし、偏差には難点があります。偏差は、データ−平均値で得られますので、平均値より小さいデータの場合、偏差はマイナスになります。

 

そして、全てのデータの偏差を足し算すると、プラスとマイナスが打ち消しあってゼロになってしまうのです。

 

そこで、偏差を2乗して足し算した、偏差平方和を用いれば、データの広がりを表す目安になります。

 

ところが、偏差平方和にも難点があります。偏差平方和は、データ数が大きいほど大きくなります。

 

偏差平方和が大きい=ばらつきが大きい、とは必ずしもいえないのです。

 

データが大きいから偏差平方和が大きいのであって、ばらつきが大きいわけではないかもしれないのです。

 

 

分散=偏差平方和÷データ数

 

データの大きさの影響を調整するために、偏差平方和をデータの数で割ります

 

これが分散です。

 

標本から得られた分散の場合にはデータ数から1を引いた値、すなわち自由度で割ると、母分散のよい推定になるといわれています。

 

これを不偏分散と呼ぶこともあります。

 

分散はデータの広がりの尺度です

 

この値が大きいほどばらばらに散っていることになります。

 

標準偏差=分散の平方根

 

ところで、今、長さのデータを扱っているとして、その単位がmであったとします。

 

分散は2乗の平均ですので、単位はm2ということになります。

 

つまり、分散はデータそのものとは異なった単位をもっているので、データや平均値と比較することはできません。

 

10mと100m2とどっちが大きいかと聞かれても、答えるのは不可能です。

 

そこで、分散のルート、すなわち平方根をとり標準偏差を算出します。

 

標準偏差であれば、元のデータや平均と同じ単位なので、平均値の周りでデータがどのようにばらついているかを知ることができます

 

つまり、データと比較する尺度としては分散より標準偏差の方が直感的にわかりやすいといえます。

 

なお、分散は偏差平方和をデータ数で割って計算しますが、式変形をすると

 

分散=データの2乗の平均−データの平均の2乗

 

という関係式が得られます。

 

こちらのほうが分散を求めるための効率のよい式となっています。

 

 

分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】


セミナー詳細                    解析ご相談                    LINEでお友達

 

 

分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】

分散(Variance):ばらつきの尺度|偏差平方和÷データ数【統計学・統計解析講義基礎】