データの真実を暴く!レンジと四分位数の科学【ChatGPT統計解析】
データの広がりを示す「レンジ(範囲)」は、データの最大値と最小値の差であり、データがどれだけ広がっているかを表します。しかし、レンジは両端の極端な値に大きく影響されるため、異常値があるとその表示が歪むことがあります。そこで、四分位数が用いられます。これはデータを四等分し、中央のデータを示す中央値(第2四分位数)やデータの分布の広がりを示す第1と第3四分位数を用いて、データのバラツキをより確実に評価します。累積度数分布を使えば、25%、50%、75%の点に垂線を下すことでこれらの四分位数を容易に求めることができます。四分位数を用いることで、レンジに比べて端の値の影響を受けにくく、データの中心と広がりを同時に把握することが可能です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
わかりやすいレンジ(範囲)
いくつかの個別データがあるとき、その値がどの程度バラついているかを示したいとします。
これにはいろいろの特性値が定義され用いられています。
では、そのものずばり、データの左右の広がりの幅(最大値−最小値)で表してはどうでしょうか。
この値はその意味通り、「レンジ(範囲)」と呼ばれています。
これが大きいほど、データは広くばらついているとみるのです。
この考え方はわかりやすくていいです。
しかし両端のデータだけで決定されるというところに不安があります。
もし、大部分の点がある範囲に集中していて、ただ1個だけが異常値として飛び離れていたらどうでしょう。
多数データの集中度合いは、まったく無視されてしまいます。
しかし、データ個数が少ないときは、どれが異常値でどれが正常値かわからないかもしれません。
分布の隙間部分のデータがたまたま欠落していて、右端のデータが孤立しただけかもしれません。
それにデータ個数が少なければ、異常値があらわれるおそれも少ないといえます。
そのためか、レンジはデータ個数がせいぜい10個くらいまでのときに用いられるようです。
両端に左右されない四分位数
次に、レンジのように両端の値に依存することのない方法が考え出されました。
四分位数がそれです。これを用いてバラツキの度合いを表す方法は以下です。
@まず、データを大きさの順に並べます。
A次に、3つの境目のデータを選んで、全体が4分の1ずつの個数に区切られるようにします。
Bその境目のデータが四分位数です。これは3個あるので、小さいほうから、第1、第2、第3四分位数と呼びます。
そして、第1、第3の四分位数の間隔(データの差)でバラツキの度合いを示すことにします。
真ん中の境、すなわち第2四分位数は、中央値に他なりません。
データ個数がちょうど「4の倍数+3」とならないと、Aの手順のところがうまくいきません。
その場合は工夫がいりますが、データ個数が多ければ多少のズレはあまり問題にしなくて構いません。
度数分布と四分位数
度数分布から四分位数を求めることは難しいですが、累積度数分布であれば、わりと簡単に四分位数が得られます。
累積度数分布のタテ目盛の25%、50%、75%の点から垂線を下せば、それぞれの四分位数を求めることができます。
四分位数にバラツキを示す特性値の役割を持たせると、端のほうに異常値があってもそれには影響されません。
この方法では、度数分布の中心の位置をあらわす中央値と、広がりを表す特性値の両方が、同一計算内で一挙に得られます。
これもメリットの一つです。
関連リンク