データ偏り解消!中央値の威力【ChatGPT統計解析】
データの分布に偏りがある場合、平均値よりも中央値の方が適切に分布を代表する値を示す。これは、平均値が極端な値によって影響を受けやすいためである。例えば、大学生の4人に1人が「平均値」を正しく理解していないという調査結果がある。具体例として、9人の年収データでは、平均値と中央値が同じ600万円である。しかし、10人目として年収4600万円の人が加わると平均値は1000万円に上がるが、中央値は変わらず600万円のままである。平均値が極端な値に影響されやすい一方、中央値はより安定しており、データの分布を代表するのに適している。また、平均値と中央値がかけ離れている場合、データに偏りがあることを示している。例えば、平均値が中央値よりも大きいときは、極端に大きな値を持つデータが存在することを意味する。逆に、平均値が中央値よりも小さいときは、極端に小さな値を持つデータがあることを意味する。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
平均値と中央値の比較
まずは次の新聞記事を読んでみましょう。
大学生の4人に1人、「平均値」理解せず。
数学力調査、中央値などと誤解、論理的思考力乏しく
大学生の4人に1人は「平均値」の意味を正しく理解していない。
数学者でつくる社団法人「日本数学会」(東京)が大学生約6000人を対象に行った初の数学力テストで、基礎知識や論理的思考力が乏しい学生が多数いることが分かった。
昨年4―7月、国公私立大48校で、新入生を中心に統計や論理、代数など5分野から小中高校で習う基本問題を出題、所属学部やベネッセコーポレーションが算出した入試難易度などと合わせて分析した。
理工系の学生が約四割を占めた。
小学校6年で学ぶ平均値の定義と性質を尋ねた問題の正答率は76.0%。
中央値や最頻値との誤解が目立ち、理工系学部でも18.0%が不正解だった。
大学生の4人に1人は平均値を理解していない・・・、これは由々しき事態です。
それに、平均値を理解していたとしても、平均値の比較については誤解している人も少なからずいるように思います。
平均値と中央値の値が離れている場合はデータの分布に偏りがある
A−Iさんの9人の年収が以下の通りだっだとします。
Aさん 400万円
Bさん 500万円
Cさん 500万円
Dさん 600万円
Eさん 600万円
Fさん 600万円
Gさん 700万円
Hさん 700万円
Iさん 800万円
この中で、年収600万人の人が3人で一番多くなっています。
このように、人数が最も多いところの値を最頻値と呼びます。
平均値は、9人の年収を全部足して、それを人数(9人)で割ればよいのです。
つまり、
平均値=(400+500+500+600+600+600+700+700+800)/9=600(万円)
となります。
中央値は、
年収を少ない順あるいは多い順に並べたときのちょうど真ん中にくる値のことです。
9人の真ん中は5番目なので、中央値は、年収が少ない方から5番目の600(万円)になります。
平均値:すべてのデータの値を足したものをデータの数で割った値
中央値:データを小さい順(大きい順)に並べたときの真ん中の順番になったデータの値
さて、ここで、さきほどの9人にIT企業の社長のJさんが加わったとしましょう。
Jさんの年収は4600万円です。
Jさんを加えた10人の年収は分布が偏っています。
実際に計算すると、1000万円になります。
しかし、年収が1000万円を超えているのはJさんたった1人だけです。
他の9人の年収は400―800万円の間で、1000万円を下回っています。
これでは、平均値がこの10人の年収を代表する値としていかがなものか、と思ってしまいますよね。
平均値を求めればそれでよいということではないのです。
では、中央値はどうでしょう。
人数が10人なので、年収を少ない順に並べたときの真ん中にくるのは、5番目と6番目の人です。
2人いるので、この2人の年収を足して2で割ったものが中央値になります。
5番目の人も6番目の人も年収が600万円なので、中央値は600万円になります。
最初の9人のときと同じ値です。
とびぬけて年収の多い人が1人加わっただけなので、年収を代表する値としては、9人のときも10人のときもそんなに変わらない方がよいような気がしますよね。
したがって、
データの分布に偏りがある場合、平均値よりも中央値の方が適切に分布を代表する値を示す
のです。
逆に言うと、平均値と中央値の値がかけ離れている場合には、データの分布に偏りがあると考えられるのです。
特に、ここで示した例のように、平均値の方が中央値よりも大きいときには、とても大きな値をとる少数のデータがあると考えられます。
逆に、平均値の方が中央値よりも小さいときには、とても小さな値をとる少数のデータがあると考えられるのです。
関連リンク