予期しない双峰性分布|標本平均だけに頼ると誤った母集団の予測をする【統計学・統計解析講義基礎】
平均だけで母集団を予想することはできない。標本平均だけに頼ると誤った母集団の予測をすることがある。例えば母集団が双峰性分布の場合、標本平均は代表値とはならない
標本平均だけに頼ると誤った母集団の予測をする
平均だけで母集団を予想することはできません。
標本平均だけに頼ると誤った母集団の予測をすることがあります。
ある作家が、地方都市の講演を依頼されました。
彼は主催者に「聴衆の年齢層は、どのへんと考えたらよいでしょうかね」と尋ねました。
主催者はまじめな人だったので、できるだけ慎重にかつ正確に答えようと努めました。
「さあ、年齢層とおっしゃられてもいろいろですが」
その作家は、あまり統計学に強くないとみえて、「それなら、真ん中あたりの年齢層としようか。真ん中は何歳くらいでしょうか」
と非専門的用語で聞きました。
主催者はもっと困った。しばらくどう答えるべきかに思い悩みました。
「真ん中ですかあ。そうですねえ。30歳から40歳といったところですかねえ」
と煮え切らない回答をしました。
作家は単純に納得して、「それがわかればいいんだ」と電話を切りました。
地方都市だからといっても、マスコミの発達している現在、ことさら地方を意識したテーマを選ぶ必要もないでしょう。
といってあまり高遠な話も敬遠されそうだし、作家はそう考えて、「不倫をめぐる夫婦間の危機」という内容の話を用意して、講演会場に出かけて行った。
予期しない双峰性分布
会場に到着し、演壇に上がり聴衆を見渡して驚いた。
なんと聴衆は孫を連れたヒマな老人が大部分だったのです。
「うーん、年齢の真ん中は確かに30歳から40歳あたりだ」
作家は演壇でうなりました。
改めて考えてみると、この作家の誤算は、聴衆の年齢層が真ん中に集中して、そこが最も高い山ひとつの度数分布型であると思い込んでいたことにありました。
この場合の度数分布は、老人の集団と子どもの集団が混じった、山ふたつの珍しい形、専門用語では「双峰性分布」というやつだったのです。
あえて真ん中に執着すると、そこがちょうど2つの山のあいだの谷間に当たることもあるのです。
母集団がこのような双峰性分布の場合、当然ながら標本平均は代表値とはなりません。
関連リンク