データの心臓部!中央値の魅力と活用法【ChatGPT統計解析】
中央値、またはメディアンは、データを大小の順に並べた際に、ちょうど中央に位置する値です。偶数個のデータがある場合は、中央の二つのデータの平均を中央値とします。中央値は、度数分布図において、累積度数が50%に達する点に引いた垂直線が交わる地点に位置します。この性質は、データが順番に並んでいる場合に直接見て取ることが可能であり、平均値と異なり、すべてのデータを利用する必要はありません。例えば、100人の身長を測定する場合、中央値を求めるには50番目と51番目のデータだけで十分であり、他のデータは必要ありません。これに対し、平均値を求める場合は全員のデータが必要です。ただし、中央値が常に便利であるとは限らず、例えばリンゴの重さのように視覚的に分かりづらい場合は平均値の方が計算が容易であるため、状況に応じた適切な指標の選択が重要です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
中央値と度数分布
中央値は、中位数またはメディアン(median)とも呼ばれます。
いくつかのデータがあって、それらを大きさの順に並べたとき、ちょうど真ん中にくる値です。
データの個数が偶数のときは、真ん中に近い2つのデータの平均をとってそれを中央値とします。
学校の生徒を、背の高さの順に横でも縦でも1列に整列させます。
その列のちょうど真ん中の生徒の身長が、中央値です。
中央値の説明はまさしくそれにつきます。
平均値とちがってまわりくどくありません。
きわめて具体的直截的です。
なお、付け加えるならば、この場合、真ん中の生徒の身長だけを測ればいいのです。
100人いたら50番目と51番目だけ測って、あとの98人は不要です。
平均値がほしいなら、もちろん100人分、全部測らなければなりません。
だから中央値がすぐれていると早合点してはいけません。
たまたま、身長の例では並べて目でみれば高いか低いかわかるからなのです。
10個のリンゴの重さの中央値はどうか、見た感じで並べるのを試してもいいですが、そう簡単ではありません。
この場合は平均値のほうが10個まとめて測って10で割り算すればいいので、はるかに手っ取り早いといえます。
累積度数分布の50%の横線との交点
度数分布が与えられたとき、それから正確な中央値を求めることはできません。
しかし、どのクラスに中央値が含まれているかはわかります。
度数分布の端のほうからデータ個数を順に勘定していけば、それが半数を越えたときのクラスに、中央値が含まれています。
この場合、もし累積度数分布が描かれていれば、50%の横線と分布の折れ線の交点から下ろした、垂線の足の位置が中央値にあたります。
先の「平均値は度数分布の重心」という話に似ていますが、度数分布の絵の上で垂直の線を移動させ、その線で切られる分布の左右の面積がちょうど等しくなるあたりに見当をつけて、そのときの線の位置が中央値なのです。
左右の面積はそれぞれ左右の度数トータルに他ならないので、当然その境界が中央値になります。
またよけいな話ですが、目で見当をつけて面積を等分するという技術が要求されることが何かあるでしょうか。
昔、子沢山の母親は、子どもたちが見守るなかで1枚のパイを誤りなく等分するという、すばらしい技術を身につけていました。
関連リンク