ばらつきの要約統計量|偏差・分散・標準偏差【統計学・統計解析講義基礎】
ばらつきの要約統計量:偏差⇒分散⇒標準偏差の流れを理解しよう
平均値と並んで統計解析で最もよく使われる統計量が、標準偏差です。
平均値が代表値を表すのに対し、標準偏差は、データのばらつきを表します。
ばらついたデータが100個あると、その平均±標準偏差の範囲に約68%のデータが含まれています。
この68という数字は覚えておくと、後の学習に役に立ちますので是非覚えましょう。
さて、このばらつきの要約統計量、標準偏差について先ずは説明したいとおもいます。
偏差とは:観測値−平均値
ばらつきを理解するためには、先ずは偏差を理解する必要があります。
偏差とは、データがどれだけ平均値から離れているか、すなわち観測値から平均を引いたものです。
観測値−平均値 です。
平均値から離れれば離れるほどばらつきが大きくなる、という意味では、偏差=ばらつき、というのはピンとくる話です。
偏差には、プラスとマイナスの値があります。
観測値が平均値より大きいときは、偏差はプラスになります。
観測値が平均値より小さいときは、偏差はマイナスになります。
さて、ばらつきはデータ全体を評価しなくてはいけません。全データの偏差の大きさがばらつきを反映するとして、それはどのように計算したらよいでしょうか。
すぐ思いつくのは、全部たす、つまり総和を求めることです。総合評価に、総和はよく使います。
しかし、偏差にはマイナスとプラスがあります。
偏差の総和を求めると、ゼロになってしまいます。
なぜなら、偏差にはプラスとマイナスがあり、打消しあってしまうからです。
さあ困りました。では偏差の大きさを全体として評価するにはどうしたらいいでしょう。
そこで必要になるのが、2乗してからたすという発想です。
2乗すると何がいいかというと、マイナスがプラスになるのです。
2乗してからたすことにより、マイナスとプラスを打ち消しあうのを回避でき、純粋にその大きさだけを評価できます。
すべてのデータについて、偏差を2乗して和を求めます。これを偏差平方和といいます。
分散とは:偏差平方和÷データの数
さて、この偏差平方和ですが、データの数が多くなると、それだけ偏差平方和も大きくなります。
例えばサイコロを振って出た目の100個のデータの偏差平方和と、10000個のデータの偏差平方和というのは、あまりにもかけ離れています。
しかし、同じサイコロを振って出た目のデータですから、ばらつきはほぼ同じはずです。
1〜6はほぼ均等に出るはずです。
偏差平方和はデータが大きいほど大きくなる、つまりデータの大きさに依存するため、偏差平方和をばらつきの指標とするのは望ましくありません。
統計学では、なるべくデータの大きさに依存しない、どんな大きさのデータにも共通に使える一般的な指標を見出すことが重要です。
そこで、偏差平方和をデータの数で割るという発想が必要です。
データの数で割れば、1データあたりの平均値からの隔たりつまりばらつきを表現できるので好都合です。
そこで、偏差平方和をデータの数で割ります。
偏差平方和÷データの数がすなわち分散です。
なお、実際にはデータの数から1を引いたもの(自由度と呼びます)で割ったものが分散としてよく用いられます(不偏分散ともいいます)。
標準偏差:分散の平方根
さて、このようにして求めた分散はばらつきの指標です。
実際にばらつきの指標として分散はよく用いられます。
しかしながら、分散には一つ難点があります。
それは、平均との足し算引き算が出来ないことです。
分散には、平均値から計算した偏差の2乗が含まれています。
つまり、平均値に比べ2乗しているため、次元が一つ高いのです。
このため平均値との足し算引き算が出来ません。
そこで、この分散の平方根をとります。
分散の平方根がすなわち標準偏差です。
平方根をとることにより、平均値と次元を同じにするので、足し算引き算ができるようになります。
データの範囲で、よく平均±標準偏差 と表現しますが、この±が可能であることが標準偏差のメリットといえます。
平均±標準偏差に範囲に、データの68%が含まれています。