Python・R・エクセルによるデータサイエンス | 統計解析講義

要約統計量は記述統計の基本【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

要約統計量は記述統計の基本【統計解析講義基礎】

要約統計量は記述統計の基本【統計解析講義基礎】


要約統計量は記述統計の基本【統計解析講義基礎】

 

 

平均とは

 

統計解析では平均は最も重要な「統計量」といっても過言ではないでしょう。

 

そのくらい平均は統計解析では最もよく使われます。

 

平均は、代表値を表現するのに最もよく使われる方法の一つです。

 

データがたくさんあって、どう表現したらいいかわからないときは、この平均による表現が有効です。

 

一言で表現できるので、記述も簡単ですし、人とのコミュニケーションも容易に進みます。

 

統計解析がきらいな人でも、平均くらいは理解できるのではないかと思います。

 

平均のような「統計量」のことを、「要約統計量」と呼ぶこともあります。

 

算術平均と幾何平均

 

最もよく使われるのは算術平均です。これは、全部足してその数で割るというものです。

 

1, 2, 3の算術平均といった場合、全部足して3で割るので2となります。

 

幾何平均とは、全部掛け算してそのべき乗根をとる平均です。

 

1, 2, 3の幾何平均といった場合、全部掛け算して立方根をとるので1.817という値となります。

 

算術平均≧幾何平均 という関係があります。

 

要約統計量は記述統計の基本【統計解析講義基礎】

 

平均を扱うときの注意

 

平均は確かに要約してわかりやすく表現する手段として便利ですが、使うにあたって注意しなければならないことがあります。

 

データの背景が同じであること

 

例えばA高校の生徒の数学テストの得点が80点、B高校の生徒のA高校と違う数学テストの得点が90点、C高校の生徒のA,B高校と違う数学テストの得点が100点だったとします。

 

この80, 90, 100を平均して、平均90点としてよいでしょうか。

 

いけません。そもそもテストが異なるわけですから、この3つを平均して代表値とすることはできません。

 

同じテストであるならば、平均することは可能です。平均する場合は、背景が同じでなければなりません。

 

外れ値がないこと

 

Aさんの年収が800万円、Bさんの年収が900万円、Cさんの年収が1000万円のとき、これら3人の平均年収は900万円と言ってよいでしょう。

 

しかし、こんな場合はどうでしょう。

 

Aさん 800万円、Bさん 900万円、Cさん 2億円

 

これを平均すると、3人の平均年収は7233万円となります。

 

算術平均が7233万円と表現すること自体間違いではないですが、代表値とはいえません。

 

代表値でないのであれば、そもそも算術平均をとる意味がないということになります。

 

中央値、最頻値が便利な場合もある

 

1, 30, 30, 30, 30 という5つの値があるとき、算術平均は24.2となりますが、これも先の例と同様で代表値としての意味をなしません。

 

このような場合、順番にならべたど真ん中の値すなわち中央値を代表値としたほうがよいでしょう。この場合は30です。

 

また、最もよく出現する値すなわち最頻値を代表値としてもよいでしょう。この場合もちろんもちろん30になります。

 

 

平均をExcelで計算する

 

Excelでは=AVERAGE(データの範囲)で算術平均を計算することができます。

 

また、=GEOMEAN(データの範囲)で幾何平均を計算することができます。

セミナー詳細こちら                    解析ご相談こちら


 

 

要約統計量は記述統計の基本【統計解析講義基礎】

要約統計量は記述統計の基本【統計解析講義基礎】

要約統計量は記述統計の基本【統計解析講義基礎】