Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学におけるレンジと四分位数【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学におけるレンジと四分位数【統計解析講義基礎】

統計学におけるレンジと四分位数【統計解析講義基礎】


統計学におけるレンジと四分位数【統計解析講義基礎】

わかりやすいレンジ

 

いくつかの個別データがあるとき、その値がどの程度バラついているかを示したいとします。

 

これにはいろいろの特性値が定義され用いられています。

 

では、そのものずばり、データの左右の広がりの幅で表してはどうでしょうか。

 

この値はその意味通り、「レンジ(範囲)」と呼ばれています。

 

これが大きいほど、データは広くばらついているとみるのです。

 

この考え方はわかりやすくていいです。

 

しかし両端のデータだけで決定されるというところに不安があります。

 

もし、大部分の点がある範囲に集中していて、ただ1個だけが異常値として飛び離れていたらどうでしょう。

 

多数データの集中度合いは、まったく無視されてしまいます。

 

しかし、データ個数が少ないときは、どれが異常値でどれが正常値かわからないかもしれません。

 

分布の隙間部分のデータがたまたま欠落していて、右端のデータが孤立しただけかもしれません。

 

それにデータ個数が少なければ、異常値があらわれるおそれも少ないといえます。

 

そのためか、レンジはデータ個数がせいぜい10個くらいまでのときに用いられるようです。

 

両端に左右されない四分位数

 

次に、レンジのように両端の値に依存することのない方法が考え出されました。

 

四分位数がそれです。これを用いてバラツキの度合いを表す方法は以下です。

 

@まず、データを大きさの順に並べます。

 

A次に、3つの境目のデータを選んで、全体が4分の1ずつの個数に区切られるようにします。

 

Bその境目のデータが四分位数です。これは3個あるので、小さいほうから、第1、第2、第3四分位数と呼びます。

 

そして、第1、第3の四分位数の間隔(データの差)でバラツキの度合いを示すことにします。

 

真ん中の境、すなわち第2四分位数は、中央値に他なりません。

 

データ個数がちょうど「4の倍数+3」とならないと、Aの手順のところがうまくいきません。

 

その場合は工夫がいりますが、データ個数が多ければ多少のズレはあまり問題にしなくて構いません。

 

度数分布と四分位数

 

度数分布から四分位数を求めることは難しいですが、累積度数分布であれば、わりと簡単に四分位数が得られます。

 

累積度数分布のタテ目盛の25%、50%、75%の点から垂線を下せば、それぞれの四分位数を求めることができます。

 

四分位数にバラツキを示す特性値の役割を持たせると、端のほうに異常値があってもそれには影響されません。

 

この方法では、度数分布の中心の位置をあらわす中央値と、広がりを表す特性値の両方が、同一計算内で一挙に得られます。

 

これもメリットの一つです。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学におけるレンジと四分位数【統計解析講義基礎】

統計学におけるレンジと四分位数【統計解析講義基礎】

統計学におけるレンジと四分位数【統計解析講義基礎】