偏差平方和から分散へ:データバラツキの数学的探求【ChatGPT統計解析】
中央値は個々のデータとの偏差の絶対値の合計が最小になる特性がありますが、絶対値は数学的に扱いにくいため、平均値がより一般的に使用されます。平均値を使用すると、偏差の二乗の合計が最小になることから、「偏差平方和」という概念が導入されます。偏差平方和はデータの個数に比例して増加するため、これをデータの個数で割った「分散」という指標が用いられます。分散はデータのバラツキを示す重要な指標ですが、単位が元のデータと異なるため、分散の平方根である「標準偏差」がより直感的なバラツキの指標として使用されます。標準偏差は分散よりも数学的な扱いが容易で、データのバラツキを直接的に示すことができます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
個々の偏差をまとめる
四分位数でバラツキを表すことにすると、外側の4分の1ずつのデータのバラツキはどうでもよくなります。
内側についてもそうです。
異常値はたしかに排除できますが、その他のデータのバラツキは依然として反映されていません。
そこで、個々のデータと平均値との差、つまり偏差を考慮する必要があります。
たとえば複数のデータがあり、個々のデータがばらついているとします。
個々のデータにはそれぞれ偏差がありますが、これを何とか1つにまとめる方法はないでしょうか。
個々の偏差をまとめる方法としては以下があります。
@中央値では、個別データとの偏差(絶対値)を合計したときの値が最小となる
A平均値では、偏差の2乗の合計が最小となる
上のどちらの場合も、偏差に関する合計であって、当然、個々の偏差が大きくなるほど大きくなります。
つまり、偏差合計が大きいということは、もとのデータのばらつきが大きいということです。
そこで、上の偏差の合計でバラツキの度合いを測ることを試みてみましょう。
といっても、中央値の場合と平均値の場合の2種類は必要ないので、どちらか一方にしましょう。
ここでは平均値を選んで、全体としてもバラツキを表すこととしましょう。
中央値ではなぜいけないのか、中央値のほうが具体性があってよいではないかという反論があるかもしれません。
しかし、中央値より平均値のほうが、実は統計理論を数学的に発展させるのに都合がいいのです。
中央値に出てくる、マイナスなしの絶対値という概念は、数学では意外と扱いにくいのです。
偏差平方和:偏差の2乗の合計
平均値を用いるとなると、平均値では、偏差の2乗の合計が最小となります。
偏差の2乗の合計は、「偏差平方和」と呼ばれています。
この呼び名は「偏差」「平方」「和」と分けられ、よくその計算手順をあらわしています。
記号を用いると、この値はSS(sum of square)で表します。
数式で示すと次のようになります。
偏差平方和=(個別データ−平均値)の2乗の全データ合計
SS=(x1−m)2+(x2−m)2+・・・+(xn−m)2
しかし、この式ではデータ個数nが多いほど、偏差平方和が大きくなります。
単純に考えれば、データ個数が倍になるとこの平方和も倍になります。
分散と標準偏差
したがって、この平方和をデータ個数で割り算したほうが、バラツキの大きさがデータ個数に左右されず合理的です。
このことから、次の式に示すところの分散という概念が生まれました。
この値は記号Vで示されます。
分散=偏差平方和/データ個数
V=SS/n
この分散は、バラツキを表す指標として大変重要です。
しかし、難点もあります。それは、偏差平方和と同じ次元、つまり測定単位が2乗されているのです。
2乗というのは具体性がありません。
また、平均値からどれだけ離れているかがわかりにくいです。
平均値との足し算引き算もできません。
そこで、この分散の平方根をとることにします。
この値がすなわち標準偏差(standard deviation)と呼ばれてよく用いる値です。
記号としてはSDあるいはギリシャ文字のσ(シグマ)が用いられます。
数式では次のように表されます。
σ=√V
なお、分散Vは標準偏差を求めるための途中の副産物のように見えますが決してそうではありません。
ルートの記号(√)がついていないので、数学的な扱いには便利であり、理論の展開には分散のほうが頻繁に用いられます。
関連リンク