Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における度数分布のクラス幅【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における度数分布のクラス幅【統計解析講義基礎】

統計学における度数分布のクラス幅【統計解析講義基礎】


統計学における度数分布のクラス幅【統計解析講義基礎】

 

数量データの場合には、度数分布のクラス幅のとり方が重要になります。

 

クラス幅を等しくする

 

度数分布型を見る場合には、条件があります。

 

それはクラス幅を等しくすることです。

 

任意でよいというのであれば、分布の形は定まりません。

 

クラス幅がすべて等しくないと、クラス幅の大小で度数が左右されるからです。

 

たとえば、クラス幅が2倍のところでは、その分だけ度数も大きくなります。

 

ふつうの度数分布表では、端のほうを見ると、たいていクラス表示が「××未満」とか「××以上」となっています。

 

これも問題で、理由はクラス幅が不明だからです。

 

そこで、問題の端のクラスはすこし離しておくことにし、分布型の判断には加えないようにします。

 

クラス幅を狭くする

 

ふつうに度数分布型というときは、ヒストグラムの形を指しています。

 

この形は、ヒストグラムの上辺部分を線で結んだ、折れ線グラフによってさらにはっきりと表すことができます。

 

この場合、対象者数が十分に多いときは、クラス幅をできるだけ狭く、そしてクラス数を多くします。

 

そうすると、折れ線は角の部分が目立たなくなって、なめらかな曲線に近くなります。

 

この曲線の描く形が、究極の度数分布型ということになります。

 

しかし実際には、対象者がそれほど多くないのがふつうで、クラス幅を小さくするとその中の対象者数がいずれもその分だけわずかになります。

 

そして、折れ線に不規則性が目立つようになります。

 

つまり分布がデコボコまたはギザギザになります。

 

そうなったのでは、究極の度数分布型にはかえってお目にかかれなくなってしまいます。

 

といってクラス幅が粗すぎてもいけないとなると、さて、クラス幅をどれくらいにしたらよいでしょうか。

 

できるだけ曲線の分布型に近く迫り、しかも不規則性がほどほどに抑えられるように、試行錯誤的に決めるほかなさそうです。

 

経験的には、クラス数にして10くらい、それ以下ではうまくいかないことが多いです。

 

もしデータ数が非常に多くてそうそうデコボコが生じないのであれば、クラス数を15-20くらいにしてもよいでしょう。

 

ゼロクラスをどうするか

 

さて、非喫煙者は当然喫煙本数はゼロです。

 

このゼロクラスをどう扱うかは大いに頭をなやますところです。

 

度数分布型という視点からは、ゼロクラスを分布に含めるか除くか、次の判断が必要です。

 

@このクラスを全体と同一の集団とみて、度数分布のなかに含める

 

Aまったく異なる集団、無縁の集団と考えて、除いてしまう

 

タバコの場合は吸う人、吸わない人の区別ははっきりしているから、判断は後者の「除く」です。

 

なかには禁煙してみたりまた吸ってみたりという、去就の定かでない人もいますが、それは例外とします。

 

ある商品について、月間購入量の度数分布というとき、たいていの世帯が購入している、たとえば米、調味料などはどうでしょうか。

 

たまたまその月に購入しないためにゼロになったという世帯は、最初のクラスを0〜5kgのような幅として、ゼロ世帯をそのクラスに含めればいいでしょう。

 

したがって、判断は前者の「含める」になります。

 

酒類などは判断が難しくなります。

 

家族のだれも飲まないからゼロなのか、買い置きがあってゼロなのか判断がつかないからです。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学における度数分布のクラス幅【統計解析講義基礎】

統計学における度数分布のクラス幅【統計解析講義基礎】

統計学における度数分布のクラス幅【統計解析講義基礎】