Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における異なるデータ形式間の変換【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における異なるデータ形式間の変換【統計解析講義基礎】

統計学における異なるデータ形式間の変換【統計解析講義基礎】


統計学における異なるデータ形式間の変換【統計解析講義基礎】

 

データ形式というのは、一度決まると動かせないものではなく、場合によっては、ある型のデータが他の型のデータに変換できるのです。

 

順序尺度を間隔尺度へ

 

たとえば世論調査で、ある意見についての賛否を次の5段階で回答してもらうものとします。

 

「非常に賛成」「賛成」「どちらともいえない」「反対」「まったく反対」

 

そうすると、個々の対象者の回答は、どれに答えるにしろ、カテゴリーデータということになります。

 

さらにこれらのカテゴリーには順序がありますから、これは順序尺度というわけです。

 

ところで、このカテゴリーにそれぞれスコアを与えてみます。

 

例えば、次のように、5, 4, 3, 2, 1のスコアを与えるものとします(A案)。

 

そうすると、カテゴリー尺度は間隔尺度に変換されます。

 

間隔尺度であるという証拠は、スコアの基準を変えて(B案)、各カテゴリーに+2、+1、0、−1、−2のスコアを与えます。

 

このようにしても、あとあとの分析の結果は同じになります。

 

カテゴリー  非常に賛成・賛成・どちらともいえない・反対・まったく反対
A案     5点・4点・3点・2点・1点
B案     +2点・+1点・0点・−1点・−2点

 

しかし、それらが等間隔であるべきだという必然性は何もありません。

 

たとえば、「非常に」というカテゴリー表現は極端な評価差を意味するものとして、+3点・+1点・0点・−1点・−3点という与え方をしても、決しておかしくはありません。

 

いずれにせよ、カテゴリーデータを数量データに変換することができます。

 

比尺度を順序尺度へ

 

比尺度を順序尺度へ変換することも可能です。

 

たとえば、年齢という比尺度を、若年層・中年層・高年層というカテゴリーにくくれば、これは順序尺度になります。

 

年齢の境をどうするかが気になるところですが、ここではそれを問わないことにします。

 

また、1日に吸うたばこの本数で、各人をヘビー・ライト・ノンスモーカーというふうに分けるのも、同種の変換です。

 

どちらの例も、数量データがカテゴリーデータに変換されたことを示しています。

 

この変換は、せっかくのくわしい数量データを、それより粗いカテゴリーにくくるわけですから、もとの情報は目減りすることになります。

 

いわば尺度の退化ですので、出来れば避けたいところです。

 

どんなときにこの変換が必要になるのでしょうか。

 

それは対象者を年代別や喫煙の度合いで分類して集計する場合です。

 

カテゴリー化によって年代層や喫煙度合いの比較や傾向が明確になります。

 

個々の年齢とか喫煙本数のような数量データのままでは、ゴチャゴチャしていて見えなかったものが、カテゴリーにくくると見えてくることもあるのです。

セミナー詳細こちら                    解析ご相談こちら


 

統計学における異なるデータ形式間の変換【統計解析講義基礎】

統計学における異なるデータ形式間の変換【統計解析講義基礎】

統計学における異なるデータ形式間の変換【統計解析講義基礎】