データの秘密を解き明かす!4つの尺度水準【ChatGPT統計解析】
統計学ではデータを質的データと量的データに分け、これらをさらに名義尺度、順序尺度、間隔尺度、比例尺度の4つの尺度水準に分類します。質的データは平均に意味がなく、主に名義尺度と順序尺度に該当します。名義尺度は数値が単に区別のために使われ、順序尺度は順番に意味があるが間隔や比率は不明です。量的データは平均に意味があり、間隔尺度と比例尺度に分けられます。間隔尺度は数値間の間隔に意味があり、比例尺度は数値間の比率にも意味があるデータです。これによりデータの解釈や分析方法が異なります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
質的データと量的データ
統計調査によって集められるデータは、質的データと量的データに大きく分けられます。
大雑把に言えば、量的データとは平均に意味があるデータで、質的データはそうではないデータです。
また、データは直感的に把握できるようにするための「視覚化」が重要です。
尺度水準
調査によって集めたデータは、ふつう数値で表されています。
というよりも、統計学では、集めたデータに対して計算をすることで、データの集まりから情報をとり出そうとするものですから、数値で表されたデータを用いるのが普通です。
ただ、データが数値で表されているからといって、必ずしも「数量」を表しているとはかぎりません。
たとえば、三択問題で@ABは選択肢の名前にすぎず、数量を表してはいません。A,B,Cでも構わないわけです。
そこで統計学では、数値で表されたデータを、それが数量としての意味をどの程度もっているかによって、4つのレベルに分類しています。
これを尺度水準といいます。
名義尺度・順序尺度・間隔尺度・比例尺度
一番尺度水準のレベルが低いのは、名義尺度です。
これは、さきほどの三択問題の@ABや、男性_1・女性_2のような数値で、数値は選択肢を区別するためだけにあり、2番が1番より「大きい」という意味ではありません。
次のレベルにあたるのが順序尺度です。
これは、この講義に満足しましたか、という設問に対し、
@非常に不満 A不満 B満足 C非常に満足
といった調査で得られる数値です。
この例では、番号の順序に意味があり、Aには、満足度が@より大きいという意味合いがあります。
しかし、BとAの満足度の差と、Aと@の満足度の差が同じということはありませんし、ましてやCはAに比べ2倍満足しているという意味でもありません。
名義尺度や順序尺度のようなデータを、質的データといいます。
質的データは、足し算、引き算をすることができません。
一方、さらに上のレベルのデータは、足し算、引き算ができるデータで、これを量的データといいます。
量的データは、さらに次の2つのレベルに分けられます。
間隔尺度は、数値の間の順序だけでなく、数値の間の間隔にも意味のあるデータです。
たとえば、摂氏温度は間隔尺度で、0℃と10℃の差と、10℃と20℃の差はどちらも10度で、同じ意味があります。
しかし、20℃が10℃の2倍暖かいという意味ではありません。
もしそうなら、20℃は−10℃の何倍暖かいのか、ということになってしまいます。
間隔尺度の性質をもち、さらに「データ間の比率」にも意味があるのが、最上位のレベルである比例尺度です。
たとえば、40歳の人は20歳の人の2倍の年数を生きていますから、年齢は比例尺度です。
温度でいえば、絶対温度(それ以上冷やすことのできない絶対零度をゼロ度とした温度)は比例尺度で、絶対温度が2倍であれば2倍のエネルギーを表しています。
データの整理の方法として、平均(算術平均)がよく知られていますが、算術平均はデータを足し算してデータの数で割ることですから、量的データでなければ意味がありません。
先に順序尺度の例としてあげた「授業評価」でも平均点を出していることがありますが、厳密には意味がないことになります。
ただ、このような調査では「各番号の満足度の間隔がおおむね等しい」つまり、近似的に間隔尺度であると仮定して、平均にも意味があるとする考え方もあります。
関連リンク