平均・中央値・最頻値: データの心を読む術【ChatGPT統計解析】
中心傾向の測度は、データの代表的な特徴を示す記述統計量で、平均値、中央値、最頻値を含みます。平均値は、全データを合計してその数で割った値で、算術平均が一般的です。中央値は、データを小さい順に並べたときの中央の値で、データの半分がこの値より大きく、半分が小さいことを意味します。最頻値は、データセット内で最も頻繁に現れる値です。これらの測度はデータのタイプや変動の測度と共に用いられ、標準得点を算出する基準点として、また代表的な得点と非代表的な得点の関係を探るために利用されます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
中心傾向の測度:代表値としての記述統計量
平均値、中央値、最頻値といった中心傾向の測度は、データの特徴を表現するために使われる記述統計量の1つのタイプです。
もう一つのタイプの統計量はデータの変動の測度で、分散、標準偏差などがあります。
中心傾向の測度は、代表値とも呼ばれ、データのうち最も中心的、あるいは代表的な点を反映しています。
言い換えれば、データを代表させるためにデータの中からたった1つの得点を選ばなければならないとしたら、中心傾向の測度を選ぶことになります。
たとえば、近郊にあるホンダ販売店の8月1ヶ月当たりの車の販売台数を最もよく代表させる必要があるなら、記述統計量として毎年8月の売り上げの平均値を利用するでしょう。
中心傾向の測度として何を利用するかは、扱っているデータのタイプによります。
平均値・中央値・最頻値
中央値は、得点を最小のものから最大のものまで順に並べていったときに、それらの得点の真ん中にくる得点です。
中央値は、得点の50%がその値より大きく、得点の50%がその値より小さくなるような点と定義されます。
中央値は、得点に極端な(非常に高い、あるいは非常に低い)値が含まれているとき、それらの代表値を計算する際にしばしば利用されます。
最頻値は、中心傾向の測度としていちばん厳密性に欠けるが、データの中で最も多く現れる得点の値です。
最頻値は、名義的あるいはカテゴリー的なデータの場合によく用いられます。
平均値は、計算で求める代表値です。
平均値にはいくつかのタイプがありますが、算術平均とは、データを全部足してその数で割ったものです。
そのデータのバランスがとれている点、すなわちさまざまな得点からみて代表となるような点です。
これらの中心傾向の測度はそれぞれ異なるタイプのデータに用いられますが、最も重要な利用法の一つは、変動の測度と共にデータを記述し、標準得点を算出する基準点として用いることです。
付け加えるなら、どんなタイプのデータを扱うときにも興味深い応用上の問いは、代表的な得点と代表的でない得点あるいは典型的でない得点の間にどのような関係があるかということです。
関連リンク