Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における最頻値・中央値・平均値の関係【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における最頻値・中央値・平均値の関係【統計解析講義基礎】

統計学における最頻値・中央値・平均値の関係【統計解析講義基礎】


統計学における最頻値・中央値・平均値の関係【統計解析講義基礎】

最頻値と平均値の間に中央値がくる

 

度数分布が対称型に近ければ、平均値と中央値はほぼ一致します。

 

たいていの度数分布は、山が一つで分布が左寄りの非対称型ですが、このときの中央値は平均値よりも小さくなります。

 

非対称の度合いが著しいほどそうなります。

 

しかし、このときの中央値は最頻値よりは大きいです。

 

したがって、平均値と最頻値の狭い隙間に中央値が無理に割り込んだ形になります。

 

逆J型分布の場合も同様です。

 

どの値も同じように、度数分布の中心の位置を表す特性値の役割をもっています。

 

そして、狭いところで押し合いながら、それぞれの居場所を譲らずに主張しているのが、どれに声援をおくるわけでもないですが、なんともユーモラスです。

 

異常値に強い中央値

 

ところで、どれに声援をおくるわけでもないと述べましたが、中央値の特筆すべき特徴は、異常値にまったく影響されないことです。

 

端のほうのデータがどのように動こうとも、真ん中辺のデータの順位にとっては痛くもかゆくもないからです。

 

この意味で、データの個数が少ないときは、異常値に左右されてブレやすい平均値よりは、中央値を用いたほうが安定していてよいのです。

 

読者の手もとに、月別とか週別の継続的な記録があるとき、平均値と中央値とを、すこし長い期間についてそれぞれ計算して、月(週)変化をあらわすグラフを描いてみるといいでしょう。

 

中央値のほうが、安定度合いがすぐれていること、そして傾向的な変化をとらえやすいことが容易に納得できます。

 

特定しにくい最頻値

 

最頻値はどうか。

 

データの多数派みたいなもので、これも異常値に強いです。

 

他がいくら動いても、それによって新たな多数派が現れない限り安泰なのです。

 

ただ、データ個数が少ないときは、みなバラバラで、もっとも多い値はどれかといわれても困ります。

 

たまたま同じ数字が2個あった、だからそれが最頻値だというわけにもいきません。

 

傾向的に多数を占めていてほしいのです。

 

また、度数分布が描けても、いままで見たように、たいてい分布の天辺(てっぺん)はフラットです。

 

そのため、最頻値がどこかを精密に特定するのは困難です。

 

「まあ、データはだいたいこの辺りに集中してますな」と、説明はそれなりにわかりやすいのですが、そのあとが続かず、以後こまかいデータ分析に最頻値を駆使する、というわけにはいかないのです。

セミナー詳細こちら                    解析ご相談こちら


 

統計学における最頻値・中央値・平均値の関係【統計解析講義基礎】

統計学における最頻値・中央値・平均値の関係【統計解析講義基礎】

統計学における最頻値・中央値・平均値の関係【統計解析講義基礎】