平均値の性質|度数分布の真ん中・偏差の和はゼロ・偏差平方和が最小・異常値に弱い【統計学・統計解析講義基礎】
平均値とは、すべての個別データを足しあげて、その合計をデータの個数で割り算した値。度数分布のみが与えられた場合、各クラスの真ん中にそのクラスのデータがすべて集中しているものとみなして平均値を計算する。偏差の合計はゼロ、中心を平均値としたときの偏差平方和は最小になる。異常値に弱い
目次 平均値の性質|度数分布の真ん中・偏差の和はゼロ・偏差平方和が最小・異常値に弱い【統計学・統計解析講義基礎】
平均値の性質
平均値とは、これは誰でも知っているように、すべての個別データを足しあげて、その合計をデータの個数で割り算した値です。
いま、データの個数をn、すべてのデータをx1、x2、・・・xnとします。
平均の英語はmean、またはaverageですが、前者の頭文字をとって、平均の記号をmとします。
すると、平均値の計算式は次のように表されます。
m=(x1+x2+・・・+xn)/n
度数分布から平均値を求める
もし、個々のデータで平均値が計算されていなくて、度数分布のみが与えられたとします。
そのときは、各クラスの真ん中にそのクラスのデータがすべて集中しているものとみなして平均値を計算します。
すなわち、各クラスごとに中央の値に度数を掛け算して、その合計をデータ個数で割り算します。
同一クラスのデータはすべて中央の値に等しいという前提なので、実際の個々のデータで計算した平均値とは、細かいところで合いません。
もちろん個々のデータによって計算した平均値のほうが正しくなります。
偏差の和はゼロ
平均値からの偏差は次の式で表されます。
平均値からの偏差=個別データ−平均値
個別データは平均値より大きいことも小さいこともあるので、プラスマイナスの値をとります。
この偏差をすべての個別データについて合計すればゼロになります。
偏差の合計がゼロになることは、平均値の計算式から容易に証明できるでしょう。
偏差平方和が最小
平均には思いがけない性質があります。
それぞれの個別データの平均値からの偏差を求めて、その値を2乗し、それらをすべて合計した値を「偏差平方和」と呼んでいます。
もちろん、平均値以外を中心としてそこからの偏差平方和も計算できます。
しかし、中心を平均値としたときに、偏差平方和は最小になります。
異常値に弱い
何軒かの小売店を固定しておいて、毎月の平均売上高のデータを出してゆくものとします。
長期間にわたって、売り上げ動向がどのように変化するかをみようというわけです。
ところが、ある月の平均購入量が、例月よりぐんとはね上がることがあります。
ある大きい店が「店じまい・在庫一掃セール」などというのをやったりするからです。
とたんに平均売上げがはね上がって、これまでの傾向は乱れてしまいます。
そのような店も実態として存在するわけですからデータとしては大切なのですが、全体の傾向をみるという目的からは困るのです。
個別データのなかに、全体からみてとくに離れた値があるとき、これを「異常値」と呼んでいます。
度数分布を描いたとしたら、上のような投げ売り店はおそらく分布そのものから飛び出していることでしょう。
この異常値が個別データのなかに発生すると、平均値はその影響を受けやすいのです。
とくにデータ個数が少ないときに、平均値は大きくぶれます。
平均値だからといって安心していると、そんな弱い面もあるので注意しましょう。
どこかへんだと思ったら、個別データをひとつひとつチェックしてみる慎重さがあっていいでしょう。
関連リンク