度数分布クラス幅の魔法:データを読む秘訣【ChatGPT統計解析】
数量データの分析において、度数分布のクラス幅を等しく設定することは重要であり、問題のある端のクラスは分布型の判断から外し、不規則性を抑えながら分布型に近づけるためには試行錯誤が必要です。理想的には、クラス数を10以上に保つことが望ましく、非常に多くのデータがある場合は15-20クラスでも良いとされます。また、ゼロクラス(特定の項目が全くないクラス)の扱いは、それが全体に含めるべきか、除外すべきかについて判断が必要です。この判断は、対象となるデータや集団の性質によって異なります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
度数分布のクラス幅
数量データの場合には、度数分布のクラス幅のとり方が重要になります。
度数分布型を見る場合には、条件があります。
それはクラス幅を等しくすることです。
任意でよいというのであれば、分布の形は定まりません。
クラス幅がすべて等しくないと、クラス幅の大小で度数が左右されるからです。
たとえば、クラス幅が2倍のところでは、その分だけ度数も大きくなります。
ふつうの度数分布表では、端のほうを見ると、たいていクラス表示が「××未満」とか「××以上」となっています。
これも問題で、理由はクラス幅が不明だからです。
そこで、問題の端のクラスはすこし離しておくことにし、分布型の判断には加えないようにします。
曲線の分布型に近く不規則性が抑えられるように
ふつうに度数分布型というときは、ヒストグラムの形を指しています。
この形は、ヒストグラムの上辺部分を線で結んだ、折れ線グラフによってさらにはっきりと表すことができます。
この場合、対象者数が十分に多いときは、クラス幅をできるだけ狭く、そしてクラス数を多くします。
そうすると、折れ線は角の部分が目立たなくなって、なめらかな曲線に近くなります。
この曲線の描く形が、究極の度数分布型ということになります。
しかし実際には、対象者がそれほど多くないのがふつうで、クラス幅を小さくするとその中の対象者数がいずれもその分だけわずかになります。
そして、折れ線に不規則性が目立つようになります。
つまり分布がデコボコまたはギザギザになります。
そうなったのでは、究極の度数分布型にはかえってお目にかかれなくなってしまいます。
といってクラス幅が粗すぎてもいけないとなると、さて、クラス幅をどれくらいにしたらよいでしょうか。
できるだけ曲線の分布型に近く迫り、しかも不規則性がほどほどに抑えられるように、試行錯誤的に決めるほかなさそうです。
経験的には、クラス数にして10くらい、それ以下ではうまくいかないことが多いです。
もしデータ数が非常に多くてそうそうデコボコが生じないのであれば、クラス数を15-20くらいにしてもよいでしょう。
ゼロクラスをどうするか
さて、非喫煙者は当然喫煙本数はゼロです。
このゼロクラスをどう扱うかは大いに頭をなやますところです。
度数分布型という視点からは、ゼロクラスを分布に含めるか除くか、次の判断が必要です。
@このクラスを全体と同一の集団とみて、度数分布のなかに含める
Aまったく異なる集団、無縁の集団と考えて、除いてしまう
タバコの場合は吸う人、吸わない人の区別ははっきりしているから、判断は後者の「除く」です。
なかには禁煙してみたりまた吸ってみたりという、去就の定かでない人もいますが、それは例外とします。
ある商品について、月間購入量の度数分布というとき、たいていの世帯が購入している、たとえば米、調味料などはどうでしょうか。
たまたまその月に購入しないためにゼロになったという世帯は、最初のクラスを0〜5kgのような幅として、ゼロ世帯をそのクラスに含めればいいでしょう。
したがって、判断は前者の「含める」になります。
酒類などは判断が難しくなります。
家族のだれも飲まないからゼロなのか、買い置きがあってゼロなのか判断がつかないからです。
関連リンク