平均値の秘密!統計の形が語るデータの真実【ChatGPT統計解析】
統計学では、分布の形状により平均値の位置が異なり、その理解が重要です。左右対称な分布では、平均値は最頻値の下に位置しますが、左右非対称な分布では、平均値は裾が長い方向に偏ります。逆J型のような特殊な分布では、平均値は特異な位置にあり、明確な対応がないこともあります。このように、分布の形は平均値の解釈に大きく影響を与え、特に社会科学では、これらの特性を理解し分析に活かすことが重要です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
左右対称分布と平均値
左右対称の山型分布では、山のもっとも高いところの真下に平均値がきます。
これは、平均値付近のデータを持つ対象者が最も多いことを意味します。
対象者がもっとも集中しているデータ値を最頻値またはモード(mode)と呼んでいます。
この言葉を用いれば、対称型の分布では「平均値と最頻値が一致する」といえます。
平均値がいくらいくらと言われると、ついうっかりしてその付近に個々の対象者データが集中していると信じてしまいます。
度数分布が左右対称になっていれば正しいのですが、そう都合のよい対称型分布には、めったにお目にかかれないはずですし、それに近い分布もあまりありません。
左右非対称分布と平均値
社会科学の領域では、左右非対称が多いことはすでに述べましたが、その状況では度数分布と平均値の関係はどのようになるでしょうか。
左右非対称分布型での平均値は、山の頂上と下部に当たる最頻値よりも山が長く裾を引くほうにずれます。
最頻値が文字どおりの具体的な意味を持っているのにくらべると、最頻値からずれた平均値の具体的な意味づけは難しいといえます。
たとえば、4人家族が最も多いということであれば、家族数の最頻値は4人となって、その意味は明白です。
しかし、平均家族4.5人といわれたとき、どんな世帯分布を想像したらよいでしょうか。
4人と5人のちょうど真ん中ということは、4人家族と5人家族が同数ということも考えられます。
あるいは、それ以外の家族数も平均値には利いているとすれば、もっと複雑な話かもしれません。
そもそも、アリスの国ならぬ平均値の世界と現実世界との対応づけは可能なのでしょうか。
言い換えれば、4.5人の意味探しに意味があるのでしょうか。
逆J型その他の分布と平均値
逆J型分布のグラフでは、英文字Jの急な坂の途中の、なんとも危なげなところに平均値がきます。
この分布型では、平均値との具体的な対応はまったくないといってよさそうです。
U型分布ではどうでしょうか。
これはもっと悪いといえます。
真ん中の、度数のほとんどないところに平均値が来ています。
1週間の喫煙日数は人によって、0日か7日のどちらかでしょうから、もっとも極端なU型分布がみられます。
平均喫煙日数が3.5日です、と言われれば、「ああ、タバコを吸う人と吸わない人と半々だな」とすぐさま推理できます。
そんな平均日数に忠実に従って、つまり1日おきにタバコを吸っているヘンな喫煙者を無理に想像しないくてもいいのです。
双峰性分布でも同様です。
子どもと老人の集団の平均が中年層になるという、へんな理屈を信用するわけにはいきません。
関連リンク