Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学で重要な順序統計量:中央値【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学で重要な順序統計量:中央値【統計解析講義基礎】

統計学で重要な順序統計量:中央値【統計解析講義基礎】


統計学で重要な順序統計量:中央値【統計解析講義基礎】

 

目次  統計学で重要な順序統計量:中央値【統計解析講義基礎】

 

中央値(メジアン)

 

中央値(メジアン)とは、順番に並べたど真ん中の値です。

 

ある5人の年収は以下の通りだとします。

 

500万円
700万円
1000万円
1200万円
20000万円(2億円)

 

この5人の平均年収つまりこれらを全部足して5で割った値は、4千万円を超えます。

 

さて、この5人の年収の代表値は、4千万円以上だと言ってよいでしょうか。

 

代表値とはとてもいえませんね。計算自体は間違いではないですが。

 

このような場合、中央値は1000万円です、1000万円が代表値です、と表現した方が現実的ではないでしょうか。

 

ではなぜ、平均は4千万を越えるのかというと、2億円の影響を受けているからです。

 

つまり、平均は外れ値の影響を受けやすいのです。

 

逆に、中央値は平均に比べ、頑健である、といえます。

 

頑健はロバストネス、形容詞だとロバストといいますが、これは、頑固に非常に近い意味で、ここでは外れ値の影響を受けにくいという意味で使われます。

 

1、 30、30、30、30、30

 

この4つの値の代表値も、平均より中央値の方がいいでしょう。

 

この場合平均は25.2という値ですが、これらをちっとも代表していません。

 

中央値30を代表値とするのが自然な考え方です。

 

厳密に言うと、数が偶数なのでど真ん中に値はありませんが、この場合には真ん中の直前と直後と足して2で割ればよいので、結局30になります。

 

たとえば、ある病気にかかって手術を受けた人がいたとして、予後を知るために手術後の生存時間の情報をまとめたいとします。

 

この人が頼りにすべきは平均でしょうか、それとも中央値でしょうか。

 

この治療で、2割の人は1年以内に亡くなったものとします。

 

一方、残りの8割の人は、概ね10年程度は生存し、15年、20年と生きた人もいたとします。

 

すると、余命の平均は約8年程度ですが、中央値の方は12年といったケースも起りうることになります。

 

このような状況で、この人はどのように判断するのが賢明でしょうか? 

 

治療後のケアに十分な注意を払えば、短命に終ることは避けられ、中央値のところまで行けそうだ、という考え方のほうが前向きではないでしょうか。

 

「あと8年の命か」と考えるのは誤り、というか1年以内に亡くなる2割のデータに引っ張られていることになります。

 

つまり平均より、中央値の方がよい、ということになります。

 

このように、全体を順番に並べた真ん中あたり、というポジションを表現する中央値は、時として平均より代表値の目安として有効です。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学で重要な順序統計量:中央値【統計解析講義基礎】

統計学で重要な順序統計量:中央値【統計解析講義基礎】

統計学で重要な順序統計量:中央値【統計解析講義基礎】