双峰性分布を見落とす危険!標本平均の落とし穴【ChatGPT統計解析】
標本平均のみに依存して母集団を予測するのは誤りが生じやすい。例えば、双峰性分布を持つ母集団では、標本平均がその実際の代表値とはならない。この点を地方都市の講演を例に挙げて説明する。作家は聴衆の年齢層について主催者から平均年齢が30歳から40歳であると聞き、その情報に基づいて講演の準備を行った。しかし、実際には聴衆は老人と子どもが主で、年齢分布が双峰性を示しており、中間の年齢層は少なかった。これは、標本平均を代表値として用いる際の誤りを示す典型例である。双峰性分布の存在は、統計的分析において特定の分布の仮定を超えて考える必要があることを教えてくれる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
標本平均だけに頼ると誤った母集団の予測をする
平均だけで母集団を予想することはできません。
標本平均だけに頼ると誤った母集団の予測をすることがあります。
ある作家が、地方都市の講演を依頼されました。
彼は主催者に「聴衆の年齢層は、どのへんと考えたらよいでしょうかね」と尋ねました。
主催者はまじめな人だったので、できるだけ慎重にかつ正確に答えようと努めました。
「さあ、年齢層とおっしゃられてもいろいろですが」
その作家は、あまり統計学に強くないとみえて、「それなら、真ん中あたりの年齢層としようか。真ん中は何歳くらいでしょうか」
と非専門的用語で聞きました。
主催者はもっと困った。しばらくどう答えるべきかに思い悩みました。
「真ん中ですかあ。そうですねえ。30歳から40歳といったところですかねえ」
と煮え切らない回答をしました。
作家は単純に納得して、「それがわかればいいんだ」と電話を切りました。
地方都市だからといっても、マスコミの発達している現在、ことさら地方を意識したテーマを選ぶ必要もないでしょう。
といってあまり高遠な話も敬遠されそうだし、作家はそう考えて、「不倫をめぐる夫婦間の危機」という内容の話を用意して、講演会場に出かけて行った。
予期しない双峰性分布
会場に到着し、演壇に上がり聴衆を見渡して驚いた。
なんと聴衆は孫を連れたヒマな老人が大部分だったのです。
「うーん、年齢の真ん中は確かに30歳から40歳あたりだ」
作家は演壇でうなりました。
改めて考えてみると、この作家の誤算は、聴衆の年齢層が真ん中に集中して、そこが最も高い山ひとつの度数分布型であると思い込んでいたことにありました。
この場合の度数分布は、老人の集団と子どもの集団が混じった、山ふたつの珍しい形、専門用語では「双峰性分布」というやつだったのです。
あえて真ん中に執着すると、そこがちょうど2つの山のあいだの谷間に当たることもあるのです。
母集団がこのような双峰性分布の場合、当然ながら標本平均は代表値とはなりません。
関連リンク