平均値の秘密:統計学の心臓を解剖!【ChatGPT統計解析】
平均値は全データの合計をデータ数で割った値で、統計解析の基本。度数分布からは各クラス中央値の加重平均で求める。平均値を中心にした偏差の合計はゼロで、偏差平方和は最小になる。しかし、異常値の影響を受けやすく、データが少ない場合は特にその影響で平均値が大きくぶれる可能性がある。統計学では、この平均値の特性と異常値への対処法を理解することが重要である。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
平均値の性質
平均値とは、これは誰でも知っているように、すべての個別データを足しあげて、その合計をデータの個数で割り算した値です。
いま、データの個数をn、すべてのデータをx1、x2、・・・xnとします。
平均の英語はmean、またはaverageですが、前者の頭文字をとって、平均の記号をmとします。
すると、平均値の計算式は次のように表されます。
m=(x1+x2+・・・+xn)/n
度数分布から平均値を求める
もし、個々のデータで平均値が計算されていなくて、度数分布のみが与えられたとします。
そのときは、各クラスの真ん中にそのクラスのデータがすべて集中しているものとみなして平均値を計算します。
すなわち、各クラスごとに中央の値に度数を掛け算して、その合計をデータ個数で割り算します。
同一クラスのデータはすべて中央の値に等しいという前提なので、実際の個々のデータで計算した平均値とは、細かいところで合いません。
もちろん個々のデータによって計算した平均値のほうが正しくなります。
偏差の和はゼロ
平均値からの偏差は次の式で表されます。
平均値からの偏差=個別データ−平均値
個別データは平均値より大きいことも小さいこともあるので、プラスマイナスの値をとります。
この偏差をすべての個別データについて合計すればゼロになります。
偏差の合計がゼロになることは、平均値の計算式から容易に証明できるでしょう。
偏差平方和が最小
平均には思いがけない性質があります。
それぞれの個別データの平均値からの偏差を求めて、その値を2乗し、それらをすべて合計した値を「偏差平方和」と呼んでいます。
もちろん、平均値以外を中心としてそこからの偏差平方和も計算できます。
しかし、中心を平均値としたときに、偏差平方和は最小になります。
異常値に弱い
何軒かの小売店を固定しておいて、毎月の平均売上高のデータを出してゆくものとします。
長期間にわたって、売り上げ動向がどのように変化するかをみようというわけです。
ところが、ある月の平均購入量が、例月よりぐんとはね上がることがあります。
ある大きい店が「店じまい・在庫一掃セール」などというのをやったりするからです。
とたんに平均売上げがはね上がって、これまでの傾向は乱れてしまいます。
そのような店も実態として存在するわけですからデータとしては大切なのですが、全体の傾向をみるという目的からは困るのです。
個別データのなかに、全体からみてとくに離れた値があるとき、これを「異常値」と呼んでいます。
度数分布を描いたとしたら、上のような投げ売り店はおそらく分布そのものから飛び出していることでしょう。
この異常値が個別データのなかに発生すると、平均値はその影響を受けやすいのです。
とくにデータ個数が少ないときに、平均値は大きくぶれます。
平均値だからといって安心していると、そんな弱い面もあるので注意しましょう。
どこかへんだと思ったら、個別データをひとつひとつチェックしてみる慎重さがあっていいでしょう。
関連リンク