平均・中央・最頻値:非対称度数分布の秘密【ChatGPT統計解析】
度数分布が対称的なとき、平均値と中央値はほぼ一致するが、非対称の度合いが強いと中央値は最頻値よりも大きくなり、平均値と最頻値の間に無理やり割り込む形となる。各値は分布の中心を示す。中央値は異常値の影響を受けにくいため、安定したデータ解析に適しており、傾向的な変化を捉えやすい。一方、最頻値は特定しにくく、データが少ないとその決定が困難である。これらの統計量は、それぞれの場において異なる利点を提供する。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
最頻値と平均値の間に中央値
度数分布が対称型に近ければ、平均値と中央値はほぼ一致します。
たいていの度数分布は、山が一つで分布が左寄りの非対称型ですが、このときの中央値は平均値よりも小さくなります。
非対称の度合いが著しいほどそうなります。
したがって、平均値と最頻値の狭い隙間に中央値が無理に割り込んだ形になります。
逆J型分布の場合も同様です。
どの値も同じように、度数分布の中心の位置を表す特性値の役割をもっています。
そして、狭いところで押し合いながら、それぞれの居場所を譲らずに主張しているのが、どれに声援をおくるわけでもないですが、なんともユーモラスです。
中央値は異常値に影響されない
ところで、どれに声援をおくるわけでもないと述べましたが、中央値の特筆すべき特徴は、異常値にまったく影響されないことです。
端のほうのデータがどのように動こうとも、真ん中辺のデータの順位にとっては痛くもかゆくもないからです。
この意味で、データの個数が少ないときは、異常値に左右されてブレやすい平均値よりは、中央値を用いたほうが安定していてよいのです。
読者の手もとに、月別とか週別の継続的な記録があるとき、平均値と中央値とを、すこし長い期間についてそれぞれ計算して、月(週)変化をあらわすグラフを描いてみるといいでしょう。
中央値のほうが、安定度合いがすぐれていること、そして傾向的な変化をとらえやすいことが容易に納得できます。
特定しにくい最頻値
最頻値はどうか。
データの多数派みたいなもので、これも異常値に強いです。
他がいくら動いても、それによって新たな多数派が現れない限り安泰なのです。
ただ、データ個数が少ないときは、みなバラバラで、もっとも多い値はどれかといわれても困ります。
たまたま同じ数字が2個あった、だからそれが最頻値だというわけにもいきません。
傾向的に多数を占めていてほしいのです。
また、度数分布が描けても、いままで見たように、たいてい分布の天辺(てっぺん)はフラットです。
そのため、最頻値がどこかを精密に特定するのは困難です。
「まあ、データはだいたいこの辺りに集中してますな」と、説明はそれなりにわかりやすいのですが、そのあとが続かず、以後こまかいデータ分析に最頻値を駆使する、というわけにはいかないのです。
関連リンク