中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】

中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】

中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】
中央値(メジアン)は順番に並べた真ん中の値。外れ値の影響を受けにくく、代表値として平均値より有用な場合がある


目次  中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】

 

中央値(メジアン)とは

 

中央値(メジアン)とは、順番に並べたど真ん中の値です。

 

記述統計における要約統計量、代表値として重要です。

 

ある5人の年収は以下の通りだとします。

 

500万円
700万円
1000万円
1200万円
20000万円(2億円)

 

この5人の平均年収つまりこれらを全部足して5で割った値は、4千万円を超えます。

 

さて、この5人の年収の代表値は、4千万円以上だと言ってよいでしょうか。

 

代表値とはとてもいえませんね。計算自体は間違いではないですが。

 

このような場合、中央値は1000万円です、1000万円が代表値です、と表現した方が現実的ではないでしょうか。

 

ではなぜ、平均値は4千万を越えるのかというと、2億円の影響を受けているからです。

 

つまり、平均値は外れ値の影響を受けやすいのです。

 

逆に、中央値は平均に比べ、頑健である、といえます。

 

頑健はロバストネス、形容詞だとロバストといいますが、これは、頑固に非常に近い意味で、ここでは外れ値の影響を受けにくいという意味で使われます。

 

1、30、30、30、30、30

 

この4つの値の代表値も、平均値より中央値の方がいいでしょう。

 

この場合平均値は25.2という値ですが、これらをちっとも代表していません。

 

中央値30を代表値とするのが自然な考え方です。

 

 

中央値(メジアン)は平均値より有用な場合がある

 

厳密に言うと、数が偶数なのでど真ん中に値はありませんが、この場合には真ん中の直前と直後と足して2で割ればよいので、結局30になります。

 

たとえば、ある病気にかかって手術を受けた人がいたとして、予後を知るために手術後の生存時間の情報をまとめたいとします。

 

この人が頼りにすべきは平均値でしょうか、それとも中央値でしょうか。

 

この治療で、2割の人は1年以内に亡くなったものとします。

 

一方、残りの8割の人は、概ね10年程度は生存し、15年、20年と生きた人もいたとします。

 

すると、余命の平均は約8年程度ですが、中央値の方は12年といったケースも起りうることになります。

 

このような状況で、この人はどのように判断するのが賢明でしょうか? 

 

治療後のケアに十分な注意を払えば、短命に終ることは避けられ、中央値のところまで行けそうだ、という考え方のほうが前向きではないでしょうか。

 

「あと8年の命か」と考えるのは誤り、というか1年以内に亡くなる2割のデータに引っ張られていることになります。

 

つまり平均値より、中央値の方がよい、ということになります。

 

このように、全体を順番に並べた真ん中あたり、というポジションを表現する中央値は、時として平均値より代表値の目安として有用です。

 

 

中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】


セミナー詳細                    解析ご相談                    LINEでお友達

 

 

中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】

中央値(メジアン):順番に並べた真ん中の値|平均値より有用な場合がある【統計学・統計解析講義基礎】