Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における分散と標準偏差【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における分散と標準偏差【統計解析講義基礎】

統計学における分散と標準偏差【統計解析講義基礎】


統計学における分散と標準偏差【統計解析講義基礎】

常識的な発想

 

四分位数でバラツキを表すことにすると、外側の4分の1ずつのデータのバラツキはどうでもよくなります。

 

内側についてもそうです。

 

異常値はたしかに排除できますが、その他のデータのバラツキは依然として反映されていません。

 

そこで、個々のデータと平均値との差、つまり偏差を考慮する必要があります。

 

たとえば複数のデータがあり、個々のデータがばらついているとします。

 

個々のデータにはそれぞれ偏差がありますが、これを何とか1つにまとめる方法はないでしょうか。

 

個々の偏差をまとめる

 

個々の偏差をまとめる方法としては以下があります。

 

@中央値では、個別データとの偏差(絶対値)を合計したときの値が最小となる

 

A平均値では、偏差の2乗の合計が最小となる

 

上のどちらの場合も、偏差に関する合計であって、当然、個々の偏差が大きくなるほど大きくなります。

 

つまり、偏差合計が大きいということは、もとのデータのばらつきが大きいということです。

 

そこで、上の偏差の合計でバラツキの度合いを測ることを試みてみましょう。

 

といっても、中央値の場合と平均値の場合の2種類は必要ないので、どちらか一方にしましょう。

 

ここでは平均値を選んで、全体としてもバラツキを表すこととしましょう。

 

中央値ではなぜいけないのか、中央値のほうが具体性があってよいではないかという反論があるかもしれません。

 

しかし、中央値より平均値のほうが、実は統計理論を数学的に発展させるのに都合がいいのです。

 

中央値に出てくる、マイナスなしの絶対値という概念は、数学では意外と扱いにくいのです。

 

標準偏差までの数式

 

平均値を用いるとなると、平均値では、偏差の2乗の合計が最小となります。

 

偏差の2乗の合計は、「偏差平方和」と呼ばれています。

 

この呼び名は「偏差」「平方」「和」と分けられ、よくその計算手順をあらわしています。

 

記号を用いると、この値はSS(sum of square)で表します。

 

数式で示すと次のようになります。

 

偏差平方和=(個別データ−平均値)の2乗の全データ合計

 

SS=(x1−m)2+(x2−m)2+・・・+(xn−m)2

 

しかし、この式ではデータ個数nが多いほど、偏差平方和が大きくなります。

 

単純に考えれば、データ個数が倍になるとこの平方和も倍になります。

 

したがって、この平方和をデータ個数で割り算したほうが、バラツキの大きさがデータ個数に左右されず合理的です。

 

このことから、次の式に示すところの分散(variance)という概念が生まれました。

 

この値は記号Vで示されます。

 

分散=偏差平方和/データ個数

 

V=SS/n

 

この分散は、バラツキを表す指標として大変重要です。

 

しかし、難点もあります。それは、偏差平方和と同じ次元、つまり測定単位が2乗されているのです。

 

2乗というのは具体性がありません。

 

また、平均値からどれだけ離れているかがわかりにくいです。平均値との足し算引き算もできません。

 

そこで、この分散の平方根をとることにします。

 

この値がすなわち標準偏差(standard deviation)と呼ばれてよく用いる値です。

 

記号としてはSDあるいはギリシャ文字のσ(シグマ)が用いられます。

 

数式では次のように表されます。

 

標準偏差=分散Vの平方根

 

σ=√V

 

なお、分散Vは標準偏差を求めるための途中の副産物のように見えますが決してそうではありません。

 

ルートの記号(√)がついていないので、数学的な扱いには便利であり、理論の展開には分散のほうが頻繁に用いられます。

 

分散と標準偏差はセットにして覚えておくとよいでしょう。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学における分散と標準偏差【統計解析講義基礎】

統計学における分散と標準偏差【統計解析講義基礎】

統計学における分散と標準偏差【統計解析講義基礎】