データ変換の魔法!カテゴリーから量への旅【ChatGPT統計解析】
データ形式は固定不変ではなく、一定の条件下で他の形式への変換が可能です。例えば、カテゴリーデータは数量データへ、比尺度データは順序尺度データへ変換できます。世論調査の5段階評価は、与えられたスコアによって間隔尺度に変換可能であり、これはカテゴリーに基づいた数量化の一例です。また、年齢や喫煙本数のような比尺度データを、若年層やヘビースモーカーなどのカテゴリーに分類することで順序尺度への変換が実現します。これらの変換はデータの詳細度が低下するため、必要性に基づいて慎重に行われるべきですが、集計や分類を明確にするためには役立つ手法です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
データ形式間の変換
データ形式というのは、一度決まると動かせないものではなく、場合によっては、ある型のデータが他の型のデータに変換できるのです。
順序尺度⇒間隔尺度
たとえば世論調査で、ある意見についての賛否を次の5段階で回答してもらうものとします。
「非常に賛成」「賛成」「どちらともいえない」「反対」「まったく反対」
そうすると、個々の対象者の回答は、どれに答えるにしろ、カテゴリーデータということになります。
さらにこれらのカテゴリーには順序がありますから、これは順序尺度というわけです。
ところで、このカテゴリーにそれぞれスコアを与えてみます。
例えば、次のように、5, 4, 3, 2, 1のスコアを与えるものとします(A案)。
そうすると、カテゴリー尺度は間隔尺度に変換されます。
間隔尺度であるという証拠は、スコアの基準を変えて(B案)、各カテゴリーに+2、+1、0、−1、−2のスコアを与えます。
このようにしても、あとあとの分析の結果は同じになります。
カテゴリー 非常に賛成・賛成・どちらともいえない・反対・まったく反対
A案 5点・4点・3点・2点・1点
B案 +2点・+1点・0点・−1点・−2点
しかし、それらが等間隔であるべきだという必然性は何もありません。
たとえば、「非常に」というカテゴリー表現は極端な評価差を意味するものとして、+3点・+1点・0点・−1点・−3点という与え方をしても、決しておかしくはありません。
いずれにせよ、カテゴリーデータを数量データに変換することができます。
比尺度⇒順序尺度
たとえば、年齢という比尺度を、若年層・中年層・高年層というカテゴリーにくくれば、これは順序尺度になります。
年齢の境をどうするかが気になるところですが、ここではそれを問わないことにします。
また、1日に吸うたばこの本数で、各人をヘビー・ライト・ノンスモーカーというふうに分けるのも、同種の変換です。
どちらの例も、数量データがカテゴリーデータに変換されたことを示しています。
この変換は、せっかくのくわしい数量データを、それより粗いカテゴリーにくくるわけですから、もとの情報は目減りすることになります。
いわば尺度の退化ですので、出来れば避けたいところです。
どんなときにこの変換が必要になるのでしょうか。
それは対象者を年代別や喫煙の度合いで分類して集計する場合です。
カテゴリー化によって年代層や喫煙度合いの比較や傾向が明確になります。
個々の年齢とか喫煙本数のような数量データのままでは、ゴチャゴチャしていて見えなかったものが、カテゴリーにくくると見えてくることもあるのです。
関連リンク