平均値と中央値|計画を立てる時は平均値・外れ値があるときは中央値【統計学・統計解析講義基礎】
平均値と中央値は異なる。外れ値があるとき、中央値は平均値よりデータを正しく反映していることが多い。計画を立てるときや判断をする際には中央値より平均値がよい
平均値meanと中央値medianの違い
「ビル・ゲイツが食堂に入ると平均給料は変化する」。こんな統計家のジョークがあります。
大して面白いジョークではありませんが、このジョークのポイントは2つの異なる種類の平均average、つまり平均値meanと中央値medianの違いにあります。
食堂にビル・ゲイツが入ってくる前の従業員の給料が次のとおりだったとしましょう。
エリック85000ドル
ホセ50000ドル
バレット45000ドル
サンドラ40000ドル
トッド35000ドル
マイケル30000ドル
ケイティ30000ドル
平均値は、平均averageと聞いて通常想像するもので、全ての給料額を加算し、その合計を人数で割った値です。
すべての給料額を足し(315000ドル)、その合計金額を人数7で割ると、45000ドルになります。
中央値は「中間」の数字として知られています。給料を低いものから高いものに順番に並べたとき、中央値は半分まで行ったところにある額です。
7の中間は4なので、この食堂の給料の中央値は4番目に高い給料を得ているサンドラの40000ドルになります。
ここに年収10億ドルのビル・ゲイツがやってきたとしましょう(ほとんどの人は彼をお金持ちとよびますが、統計家は外れ値とよびます)。
ビル・ゲイツの給料は食堂の平均給料を1億2500万ドル強に変えてしまいます。
中央値は、8の中間がないことから4と5の中間になります。
4番目に高い給料は45000ドル、5番目は40000ドルであることから、食堂にいる人の給料の中央値は42500ドルになります。
ほとんどの人が、42500ドルは食堂にいる人の給料を正しく反映しており、1億2500ドルは参考にならないと言うでしょう。
以上のことから、ある法則ができあがります。
それは、まさに大手ソフトウェアの起業家が高脂肪な朝食を摂ろうとしたときに起こる現象ですが、データに外れ値があったときは、中央値を使うとよいということです。
ここで大事なポイントは、統計学で「ある法則」に出くわしたらよく注意する、ということです。
「状況の正しい反映」が統計学を応用する唯一の理由ではなく、その先の計画や決断を目的としているからです。
ここで、設定を食堂から病院に代えて、給料の代わりに外科手術に必要な費用、ビル・ゲイツの代わりにさまざまな合併症により250,000ドルにも上る手術費用が必要な患者を想像してみましょう。
患者185000ドル
患者250000ドル
患者345000ドル
患者440000ドル
患者535000ドル
患者630000ドル
患者730000ドル
患者8250000ドル
平均値は70000ドルを超え、中央値はビル・ゲイツの例と同様に42500ドルとなります。
もしあなたが病院の経営者だったとすれば、どちらの数値があなたにとって重要でしょうか。
42500ドルは一般的な患者負担額の「正しい反映」かもしれませんが、翌年の予算を患者1人あたり42500ドルで計算しようとすれば、おそらく予算不足に至るでしょう。
平均値と中央値の使い分け
平均値と中央値を考えることは、例えば私が医療保険に加入し(私のように支出が保険の掛け金より断然小さいアメリカ人の年間出費の中央値は、平均年間出費を考えるとかなり割りのより取引に思えます)。
シートベルトを着用する(ドライブでの負傷数の中央値がゼロっだったとしても)理由につながります。
ということで食堂にビル・ゲイツが登場せず退屈しているときのために、珈琲で汚れたナプキンで走り書きができる、ある法則を教えましょう。
「統計学ではときに正解も不正解もありません。すべては何を目的として統計学を用いるかによるのです」。
@多くの人が「平均average」とよぶものは、統計家が平均値とよぶものです。平均値の計算には、データを数字配列と考え、すべての数字を足して、並んでいる数字の個数で割るとよいでしょう。
A中央値は数字配列の中央の値です。並べられた数の半分は中央値より値が大きく、半分は中央値より値が小さくなります。
B外れ値とは、データのパターンに従わない観測値です。
C外れ値があるとき、中央値は平均値よりデータを正しく反映していることが多いです。
D一般的に、計画を立てるときや判断をする際には中央値より平均値がよいです。