Python・R・エクセルによるデータサイエンス | 統計解析講義

平均値と中央値の統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

平均値と中央値の統計学【統計解析講義基礎】

平均値と中央値の統計学【統計解析講義基礎】


平均値と中央値の統計学【統計解析講義基礎】

 

「ビル・ゲイツが食堂に入ると平均給料は変化する」。こんな統計家のジョークがあります。

 

大して面白いジョークではありませんが、このジョークのポイントは2つの異なる種類の平均average、つまり平均値meanと中央値medianの違いにあります。

 

食堂にビル・ゲイツが入ってくる前の従業員の給料が次のとおりだったとしましょう。

 

エリック 85000ドル
ホセ 50000ドル
バレット 45000ドル
サンドラ 40000ドル
トッド 35000ドル
マイケル 30000ドル
ケイティ 30000ドル

 

平均値は、平均averageと聞いて通常想像するもので、全ての給料額を加算し、その合計を人数で割った値です。

 

すべての給料額を足し(315000ドル)、その合計金額を人数7で割ると、45000ドルになります。

 

中央値は「中間」の数字として知られています。給料を低いものから高いものに順番に並べたとき、中央値は半分まで行ったところにある額です。

 

7の中間は4なので、この食堂の給料の中央値は4番目に高い給料を得ているサンドラの40000ドルになります。

 

ここに年収10億ドルのビル・ゲイツがやってきたとしましょう(ほとんどの人は彼をお金持ちとよびますが、統計家は外れ値とよびます)。

 

ビル・ゲイツの給料は食堂の平均給料を1億2500万ドル強に変えてしまいます。

 

中央値は、8の中間がないことから4と5の中間になります。

 

4番目に高い給料は45000ドル、5番目は40000ドルであることから、食堂にいる人の給料の中央値は42500ドルになります。

 

ほとんどの人が、42500ドルは食堂にいる人の給料を正しく反映しており、1億2500ドルは参考にならないと言うでしょう。

 

以上のことから、ある法則ができあがります。

 

それは、データに外れ値があったときは(まさに大手ソフトウェアの起業家が高脂肪な朝食を摂ろうとしたときに起こる現象ですが)、中央値を使うとよいということです。

 

ここで大事なポイントは、統計学で「ある法則」に出くわしたらよく注意する、ということです。

 

「状況の正しい反映」が統計学を応用する唯一の理由ではなく、その先の計画や決断を目的としているからです。

 

ここで、設定を食堂から病院に代えて、給料の代わりに外科手術に必要な費用、ビル・ゲイツの代わりにさまざまな合併症により250,000ドルにも上る手術費用が必要な患者を想像してみましょう。

 

患者1 85000ドル
患者2 50000ドル
患者3 45000ドル
患者4 40000ドル
患者5 35000ドル
患者6 30000ドル
患者7 30000ドル
患者8 250000ドル

 

平均値は70000ドルを超え、中央値はビル・ゲイツの例と同様に42500ドルとなります。

 

もしあなたが病院の経営者だったとすれば、どちらの数値があなたにとって重要でしょうか。

 

42500ドルは一般的な患者負担額の「正しい反映」かもしれませんが、翌年の予算を患者1人あたり42500ドルで計算しようとすれば、おそらく予算不足に至るでしょう。

 

平均値と中央値を考えることは、例えば私が医療保険に加入し(私のように支出が保険の掛け金より断然小さいアメリカ人の年間出費の中央値は、平均年間出費を考えるとかなり割りのより取引に思えます)。

 

シートベルトを着用する(ドライブでの負傷数の中央値がゼロっだったとしても)理由につながります。

 

ということで食堂にビル・ゲイツが登場せず退屈しているときのために、珈琲で汚れたナプキンで走り書きができる、ある法則を教えましょう。

 

「統計学ではときに正解も不正解もありません。すべては何を目的として統計学を用いるかによるのです」。

 

@多くの人が「平均average」とよぶものは、統計家が平均値とよぶものです。平均値の計算には、データを数字配列と考え、すべての数字を足して、並んでいる数字の個数で割るとよいでしょう。

 

A中央値は数字配列の中央の値です。並べられた数の半分は中央値より値が大きく、半分は中央値より値が小さくなります。

 

B外れ値とは、データのパターンに従わない観測値です。

 

C外れ値があるとき、中央値は平均値よりデータを正しく反映していることが多いです。

 

D一般的に、計画を立てるときや判断をする際には中央値より平均値がよいです。

セミナー詳細こちら                    解析ご相談こちら


 

平均値と中央値の統計学【統計解析講義基礎】

平均値と中央値の統計学【統計解析講義基礎】

平均値と中央値の統計学【統計解析講義基礎】