統計学における平均値の計算式|【統計学・統計解析講義基礎】
平均値を数式で表す
平均値とは、これは誰でも知っているように、すべての個別データを足しあげて、その合計をデータの個数で割り算した値です。
いま、データの個数をn、すべてのデータをx1、x2、・・・xnとします。
平均の英語はmean、またはaverageですが、前者の頭文字をとって、平均の記号をmとします。
すると、平均値の計算式は次のように表されます。
m=(x1+x2+・・・+xn)/n
この式の意味するところを具体例でみてみましょう。
C君の引っ越し後の、池袋から各人の住む駅までの所要時間を、記号x1、x2、・・・、xnにあてはめて上式で計算すれば、全員の平均所要時間は、
m=(10+20+60)/3=30
となることがわかります。
度数分布から平均値を求める
もし、個々のデータで平均値が計算されていなくて、度数分布のみが与えられたとします。
そのときは、各クラスの真ん中にそのクラスのデータがすべて集中しているものとみなして平均値を計算します。
すなわち、各クラスごとに中央の値に度数を掛け算して、その合計をデータ個数で割り算します。
同一クラスのデータはすべて中央の値に等しいという前提なので、実際の個々のデータで計算した平均値とは、細かいところで合いません。
もちろん個々のデータによって計算した平均値のほうが正しくなります。
偏差の和はゼロになる
平均値からの偏差は次の式で表されます。
平均値からの偏差=個別データ−平均値
個別データは平均値より大きいことも小さいこともあるので、プラスマイナスの値をとります。
この偏差をすべての個別データについて合計すればゼロになります。
先ほどの例で、C君の引っ越し後について、所沢から左側をマイナス方法、右側をプラス方向とすると、所沢からの距離(つまり偏差)は合計してゼロとなります。
所沢駅が平均にあたるからです。
偏差の合計がゼロになることは、平均値の計算式から容易に証明できるでしょう。
偏差平方和は最小になる
平均には思いがけない性質があります。
それぞれの個別データの平均値からの偏差を求めて、その値を2乗し、それらをすべて合計した値を「偏差平方和」と呼んでいます。
もちろん、平均値以外を中心としてそこからの偏差平方和も計算できます。
しかし、中心を平均値としたときに、この平方和は最小になります。
C君の引っ越し後について、偏差平方和を計算すると次のようになります。
偏差平方和: 「ひばりが丘」に集まると1700 「所沢」に集まると1400
中央値のひばりが丘でなくて、平均値の所沢のほうが小さくなります。
他の駅についても計算して、やはり所沢が最小であることが確かめられます。
先の質問での、誤りの回答のすべてが「所沢」に集中したということは「時間の合計が最小になるのは平均値である」という、根拠のない単純な思い込みに基づくものであったようです。
平均値の計算式そのものには、どこにも2乗がついていないので、まさか最小になるのは時間の2乗の合計などとは、ゆめにも思わなかったのではないでしょうか。
異常値に弱い平均値
何軒かの小売店を固定しておいて、毎月の平均売上高のデータを出してゆくものとします。
長期間にわたって、売り上げ動向がどのように変化するかをみようというわけです。
ところが、ある月の平均購入量が、例月よりぐんとはね上がることがあります。
ある大きい店が「店じまい・在庫一掃セール」などというのをやったりするからです。
とたんに平均売上げがはね上がって、これまでの傾向は乱れてしまいます。
そのような店も実態として存在するわけですからデータとしては大切なのですが、全体の傾向をみるという目的からは困るのです。
個別データのなかに、全体からみてとくに離れた値があるとき、これを「異常値」と呼んでいます。
度数分布を描いたとしたら、上のような投げ売り店はおそらく分布そのものから飛び出していることでしょう。
この異常値が個別データのなかに発生すると、平均値はその影響を受けやすいのです。
とくにデータ個数が少ないときに、平均値は大きくぶれます。
平均値だからといって安心していると、そんな弱い面もあるので注意しましょう。
どこかへんだと思ったら、個別データをひとつひとつチェックしてみる慎重さがあっていいでしょう。
関連リンク