クロス表で理解するカテゴリーデータと数量データ【ChatGPT統計解析】
個別データは、性別や購入商品のようなカテゴリーデータと、年齢や購入量のような数量データに分けられます。数量データは度数分布や回帰分析などの方法で処理できますが、カテゴリーデータはクロス表で示されることが一般的です。クロス表では縦横のカテゴリーを組み合わせてデータを表します。個別データを集計する際、人数を数える方法と購入金額を合計する方法があります。これらの集計結果は実数表として表され、さらにパーセント表に換算することで理解しやすくなります。しかし、対象者が少ない場合は比率の信頼性が低くなるため、実数のまま分析することもあります。例えば、少人数のデータからパーセンテージを出すと信頼性が低くなることがあります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
クロス表:縦横でカテゴリーをクロスした表
ふつうの統計表は、おおもとは個別データで、それをまとめて統計表に仕上げます。
したがって個別データがまず問題となります。
もともとの個別データは、性別、購入商品のようなカテゴリーデータと、年齢、購入量のような数量データとに大きく分けられます。
後者の数量データについては、度数分布から回帰分析に至るまで様々の取り扱いが可能です。
しかし前者のカテゴリーデータではこのような扱いができません。
統計表は、ふつう縦横をクロスしたおなじみの様式で示されます。
この表を作るには、まず2種類の個別データを選んで、縦横のカテゴリーの組み合わせを作らなければなりません。
これが第一のステップです。
そこで、ある人数の女性について、それぞれの「年代」と購入化粧品の種類がカテゴリーとして与えられたものとします。
これをもとにして統計表を作ってみましょう。
なお、このように縦横でカテゴリーをクロスした表を、文字どおりにクロス表と呼んでいます。
データの積み上げ
次に第二のステップとして、個別データを積み上げなければなりません。
これには2つの場合があります。
@数え上げる: まず対象者を年代に分類して、化粧品の種類別に購入した人数を数え上げます。
たとえば、ある月にメーク製品を買った人数、基礎化粧品類を買った人数、ファンデーションを買った人数、ヘアケア製品を買った人数というふうにカウントします。
さらに、メークなら口紅、アイシャドウ、アイブロウ、マスカラ、ほほ紅、マニキュアとたくさんあります。
分類のこまかさは問いませんが、ともかくそれぞれの購入者を数えて計上します。
A足し上げる: 購入金額がわかっている場合、購入者数だけではなくその金額も集計に用います。年代ごとに化粧品種類別の購入金額を足し上げるのです。
以下の図はこの2種類の表を示すものですが、要するに表の外側は同じで中身が人数か金額かの違いです。
うっかりして、「おや、同じ表だ」と勘違いしないようにしましょう。
中身は、一方は人数、他方は金額です。
実数表とパーセント表
これらの表は、もとのデータを数えたまま、あるいは足し上げたままです。
したがって、それぞれのマス目の数字は、人数、購入金額のような実数そのものです。
これは「実数表」と呼ばれます。
このままでもよいのですが、さらに次のように加工するのが普通です。
@対象者人数でそれらの数字を割り算します。それが比率となるわけですが、ふつうはパーセント表示するので、ここでは実務的に「パーセント表」と呼ぶことにしましょう。
A購入金額計で割り算します。これも比率となって、やはりパーセント表が得られます。ところで、人数で割り算することもできます。するとこれは、平均値になってしまいます。1人平均購入金額です。
このように加工したほうが、いちいち「もとの人数が何人でそのうち何人がどうした」などと気を回すことがなく、内容を理解するのに楽です。
ただし、対象者の数がきわめて小さいときには、比率があまり信頼できないので、もとの実数のままで分析することもないわけではありません。
「当社の社員の66.7%がカレーライスを好む」といえばいかにも信頼できそうですが、あるレストランにたまたま当社社員が3人いて、2人がカレーライスを食べていたと聞けば、信頼度は当然ぐんと低くなります。
関連リンク