統計学の代表値:平均値の罠と真の価値【ChatGPT統計解析】
統計学における代表値は、データの特性を一つの数値で表すもので、主に「平均値」「中央値」「最頻値」があります。平均値は全データの総和をデータ数で割ったもので、よく使われますが、極端な値の影響を受けやすく、必ずしも代表値として適切とは言えません。例えば、年収が200万円の人が4人、700万円の人が1人いる場合、平均年収は300万円ですが、ほとんどの人の年収とはかけ離れています。中央値や最頻値も代表値として使われますが、使用する代表値はデータの特性や目的によって異なる場合があります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学における代表値
「平均値」にひそむ欠点
多数のまとまった統計数字を1つの数値でなるべく忠実に表現しようとする場合、それを「代表値」という。
こういうと簡単そうだが、注意すべきポイントも少なくない。
次のような簡単なケースを考えてみよう。
年収200万円の人が4人、700万円の人が1人いるとき、これを平均すると、
となり、300万円となるが、この数字は5人のすべての人からかなりずれた値である。
したがって、この平均値は、4人の年収を代表する値(代表値)としては、大きすぎの値となっている。
平均値は代表値の一つと考えられよく用いられているが、つねに適切とはいえない。
このような非現実性は、どのような時代であっても、国家や社会のレベルでは大きな現象になる。
日本の勤労者(サラリーマン)の所帯あたりの平均貯蓄額は1988年で891万円であったが、60年の実に30倍となっている(総務庁調査)。
しかも、891万円は開業医などの自営業者を含んでいない。
この数字は勤労者だけのものであるが、現在でも結構高いことに驚かされる。
「豊かさを実感できない日本人」といわれているが、これを知ると意外に思われる。
実際、集団の経済量の平均は大きめに出る。
また、少数の極端な値の影響を受けやすい。
サラリーマンには普通の人の何倍も年収を得ている人が少数いるであろうから、それも同資格で平均するとずいぶん大きな数字になる。
10万円、10万円、10万円、100万円の平均は32.5万円で、4人中3人(最多数)までもが10万円なのに、平均はその3倍以上になる。
平均とはそういうものである。
この最多数の値を統計学では、「最頻値(モード)」というが、上の貯蓄額の最頻値は、じつはたったの206万円である。
平均の23%にすぎないが、最多数なので、これが「サラリーマンの実感」である。
代表値はふつう3通り
この最頻値206万円は官庁の経済統計の中で一応は公表されているが、平均891万円はあまりにも現実と違いすぎる数字なので、マスコミは積極的にとりあげず、経済政策の効果を気にする政府もあまり強く言わない事情があった。
次に「中央値」、あるいは「中位数」(メディアン)とは、ここの例では、貯蓄を少ない方から多い方へ並べた場合の、ちょうど真ん中(中心)の人の貯蓄をいう。
数年後の1991年では、図1のヒストグラムに見るように
平均値=1,128万円
中央値=740万円
最頻値=300-400(350)万円
である。
貯蓄が平均で1千万円を越え、それも十数年前というのは意外に感じられるのであろう。
それはともかくこの3通りの値がふつう「代表値」といわれる値である。
どれを使うかは一通りにはいえないが、ふつうはこの大きさの順序になっているので、しばしば、自己に都合のよい大きい(小さい)値を採用するという問題が指摘されている。
表1からもわかるように、最頻値と平均値のずれは若千縮んではいるが依然として大きい。
このずれが解消することはない。
なぜなら多くの経済量の分布は右に流れる非対称な(右と左の形が異なる)形になるから、平均値が大きくなることは避けられないのである。
むしろ平均値を見るときこそ注意すべきであろう。
なお、このように平均値で代表することが適切でないようにデータが大きい方へばらつく場合は、経済データ以外にももちろん多くある。
医学においては、「5年生存率」のほかに「生存年数」なども予後の指様であるが、生存年数は数か月から何十年と大きくばらつくことが多い。
この場合に「平均生存年数」のほかに「メディアン生存年数」でいうことも考えられるであろう。
関連リンク