Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学で重要な要約統計量:分散【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学で重要な要約統計量:分散【統計解析講義基礎】

統計学で重要な要約統計量:分散【統計解析講義基礎】


統計学で重要な要約統計量:分散【統計解析講義基礎】

 

目次  統計学で重要な要約統計量:分散【統計解析講義基礎】

 

分散

 

データがどこを中心として分布しているのかを示すには、平均が便利です。

 

一方、データがどの程度ばらついているのか、ばらばらに散っているのかの目安としては、どのような量を考えればいいでしょうか。

 

データの平均からのずれは「偏差」と呼びます。偏差は、たしかにばらつきの目安として直感的でわかりやすいです。

 

しかし、偏差には難点があります。偏差は、データ−平均で得られますので、平均より小さいデータの場合、偏差はマイナスになります。

 

そして、全てのデータの偏差を足し算すると、プラスとマイナスが打ち消しあってゼロになってしまうのです。

 

そこで、偏差を2乗して足し算した、偏差平方和を用いれば、データの広がりを表す目安になります。

 

ところが、偏差平方和にも難点があります。偏差平方和は、データ数が大きいほど大きくなります。

 

偏差平方和が大きい=ばらつきが大きい、とは必ずしもいえないのです。

 

データが大きいから偏差平方和が大きいのであって、ばらつきが大きいわけではないかもしれないのです。

 

このようなデータの大きさの影響を調整するために、偏差平方和をデータの数で割ります。

 

これが分散です。

 

標本から得られた分散の場合にはデータ数から1を引いた値、すなわち自由度で割ると、母分散のよい推定になるといわれています。これを不偏分散と呼ぶこともあります。

 

分散はデータの広がりの尺度です。この値が大きいほどばらばらに散っていることになります。

 

ところで、今、長さのデータを扱っているとして、その単位がmであったとします。

 

分散は2乗の平均ですので、単位はm2ということになります。

 

つまり、分散はデータそのものとは異なった単位をもっているので、データや平均の値と比較することはできません。

 

10mと100m2とどっちが大きいかと聞かれても、答えるのは不可能です。

 

そこで、分散のルート、すなわち平方根をとり標準偏差を算出します。

 

標準偏差であれば、元のデータや平均と同じ単位なので、平均の周りでデータがどのようにばらついているかを知ることができます。

 

つまり、データと比較する尺度としては分散より標準偏差の方が直感的にわかりやすいといえます。

 

なお、分散は偏差平方和をデータ数で割って計算しますが、式変形をすると

 

分散=データの2乗の平均−データの平均の2乗

 

という関係式が得られます。こちらのほうが分散を求めるための効率のよい式となっています。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学で重要な要約統計量:分散【統計解析講義基礎】

統計学で重要な要約統計量:分散【統計解析講義基礎】

統計学で重要な要約統計量:分散【統計解析講義基礎】