平均値の陥りやすい誤り|中央値はデータ数が奇数の場合の真ん中のデータ【統計学・統計解析講義基礎】
奇数の人数の場合には、真ん中に住んでいる人の所に集まればよい。人数が偶数のときには、真ん中に近い人のどちらの所を選んでもよい。この真ん中の人の持つデータを、統計学では中央値と呼ぶ
東京都の地図を広げると、左上のほうに伸びる、西武池袋線という私鉄の線があります。
もっとも全部が東京都ではなく、所沢から先は埼玉県に変わります。
また途中で分かれて西部ライオンズ球場に行く線もあります。
この西武池袋線の沿線にある会社に入社した、A君、B君、C君の3人は、それぞれ同じ線の「練馬」「ひばりが丘」「所沢」に住むことになりました。
彼らは仲がよく、いつも一緒に酒を飲んだり、遅くまで話し込んだりしていました。
休日でもよく集まりました。
そのときの集合場所は「ひばりが丘」でした。
というのは、3人の住居からの時間の合計がもっとも小さくなる所というのが、彼らの取り決めた原則でした。
こまかには、時間はこの線を利用するものとして駅間の所要時間で測ること、集合場所はどこかの駅にすることの取り決めがありました。
さて、C君が結婚して「飯能」に引っ越しました。
今度はどこに集まれば、時間の合計が最小になるか。
平均値の陥りやすい誤り
これまでに実際にこの問題を、いろんなところで何度か出してみましたが、正解が少ないのが現状です。
たいていの人は「所沢」と答えるのです。
「所沢」と答えるのは、その左側のA君、B君の所要時間が合わせて10+20=30分、また右側のC君からの所要時間がやはり30分で、ちょうど真ん中だからという理屈からだと思われます。
では具体的に計算してみましょう。
「所沢」に集まると、所要時間は、A君が20分、B君が10分、C君が30分で、合計60分です。
ところが、「ひばりが丘」にすると、A君が10分、B君が0分、C君が40分で、合計50分となります。
所沢が正解でないことは、これで明らかです。
中央値はデータ数が奇数の場合の真ん中のデータ
ここで、人数が何人でもまたどのように散らばって住んでいようと、かならず当てはまる、一般的な解答を掲げておきましょう。
「奇数の人数の場合には、真ん中に住んでいる人の所に集まればよいのです。人数が偶数のときには、真ん中に近い人のどちらの所を選んでもよいのです」
この真ん中の人の持つデータを、統計学では「中央値」と呼びます。
関連リンク