要約統計量は記述統計の基本|平均値・中央値・最頻値【統計学・統計解析講義基礎】
記述統計で重要な要約統計量、先ずは平均値・中央値・最頻値を理解しよう
データを要約統計量で表現することは記述統計の基本です。
要約統計量の中でも代表値として要約する要約統計量に、平均値・中央値・最頻値があります。
目次 要約統計量は記述統計の基本|平均値・中央値・最頻値【統計学・統計解析講義基礎】
平均値とは
統計解析では平均値は最も重要な「統計量」といっても過言ではないでしょう。
そのくらい平均値は統計解析では最もよく使われます。
平均値は、代表値を表現するのに最もよく使われる方法の一つです。
データがたくさんあって、どう表現したらいいかわからないときは、この平均値による表現が有効です。
一言で表現できるので、記述も簡単ですし、人とのコミュニケーションも容易に進みます。
統計解析がきらいな人でも、平均値くらいは理解できるのではないかと思います。
平均値のような「統計量」のことを、「要約統計量」と呼ぶこともあります。
算術平均と幾何平均
最もよく使われるのは算術平均です。これは、全部足してその数で割るというものです。
1, 2, 3の算術平均といった場合、全部足して3で割るので2となります。
幾何平均とは、全部掛け算してそのべき乗根をとる平均です。
1, 2, 3の幾何平均といった場合、全部掛け算して立方根をとるので1.817という値となります。
算術平均≧幾何平均 という関係があります。
平均値を扱うときの注意
平均値は確かに要約してわかりやすく表現する手段として便利ですが、使うにあたって注意しなければならないことがあります。
データの背景が同じであること
例えばA高校の生徒の数学テストの得点が80点、B高校の生徒のA高校と違う数学テストの得点が90点、C高校の生徒のA,B高校と違う数学テストの得点が100点だったとします。
この80, 90, 100を平均して、平均値90点としてよいでしょうか。
いけません。そもそもテストが異なるわけですから、この3つを平均して代表値とすることはできません。
同じテストであるならば、平均することは可能です。平均する場合は、背景が同じでなければなりません。
外れ値がないこと
Aさんの年収が800万円、Bさんの年収が900万円、Cさんの年収が1000万円のとき、これら3人の平均年収は900万円と言ってよいでしょう。
しかし、こんな場合はどうでしょう。
Aさん 800万円、Bさん 900万円、Cさん 2億円
これを平均すると、3人の平均年収は7233万円となります。
算術平均が7233万円と表現すること自体間違いではないですが、代表値とはいえません。
代表値でないのであれば、そもそも算術平均をとる意味がないということになります。
中央値、最頻値が便利な場合もある
1, 30, 30, 30, 30 という5つの値があるとき、算術平均は24.2となりますが、これも先の例と同様で代表値としての意味をなしません。
このような場合、順番にならべたど真ん中の値すなわち中央値を代表値としたほうがよいでしょう。この場合は30です。
また、最もよく出現する値すなわちち最頻値を代表値としてもよいでしょう。この場合もちろんもちろん30になります。
平均値をExcelで計算する
Excelでは=AVERAGE(データの範囲)で算術平均を計算することができます。
また、=GEOMEAN(データの範囲)で幾何平均を計算することができます。