数値データの秘密!4つの尺度が解き明かす世界【ChatGPT統計解析】
数値データは名義尺度、順序尺度、間隔尺度、比尺度の4種類の情報を持つ。名義尺度は数値が名前の代わりに用いられ、大小比較には意味がない。順序尺度は順位情報を示し、数値の大小が意味を持つが、数値間の差は特定の意味を持たない。間隔尺度では数値の差に意味があり、温度計測などに使われる。比尺度は数値の大小、差、比に全て意味がある。順序尺度のデータには任意の単調変換が可能で、間隔尺度・比尺度のデータにはパラメトリック法、名義尺度と順序尺度にはノンパラメトリック法が適用される。これらの尺度は、統計的方法の選択に影響し、それぞれの尺度に適した変換や分析法が存在する。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 数値データの秘密!4つの尺度が解き明かす世界【ChatGPT統計解析】
数値データのもつ情報
私たちのまわりには、身長・体重やテスト成績など、数値で表されるものが非常に多いです。
それらの数値は、見かけ上は同じでも、その数値がもっている情報には大きな違いがあります。
そうした情報の違いは、その数値データに適用される統計的方法の選択にも影響してきます。
名義尺度:野球の背番号
野球選手の背番号は、数値が名前の代わりに用いられているだけで、背番号8が背番号5より大きな数値であるといった数値の大小は直接的には何の意味も持っていません。
このような名前代わりに用いられる数値は「名義尺度」(nominal scale)を構成しているといいます。
順序尺度:鉱物の硬さ
鉱物の硬さの比較を考えてみましょう。
いま5種類の鉱物があるとします。それらを互いにこすりつけると、どちらがより硬いかがわかります。
そこで、硬い順にたとえば5、4、3、2、1という数値を割り当てるとしたら、この数値の大小は、例えば5の鉱物は3の鉱物より硬い、ということを意味します。
しかし、5の鉱物と3の鉱物の差は2であるという情報は、同じ2の差でも4と2の硬さの差や3と1の硬さの差と同じだけの硬さの差を表しているわけではないから、特別の意味をもちません。
このように順序情報のみが意味をもつ数値は「順序尺度」(ordinal scale)を構成しているといいます。
間隔尺度:摂氏温度
摂氏で表現される温度を考えてみましょう。
温度の大小(高低)に意味があることは明らかですが、温度の場合はそれに加え、数値の差にも意味があります。
たとえば、20度と25度の間の5度の差と、25度と30度の間の5度の差は、同じだけの熱膨張をもたらすとか、温度上昇に同じだけの熱量が必要であるという点で同等の差であるということができます。
このように値の差(間隔)に意味がある数値は「間隔尺度」(interval scale)を構成しているといいます。
比尺度:長さ
最後に、ものさしで測られる長さの例を考えてみます。
長さについては、数値の大小や差に意味があるだけでなく、「10mは2mの5倍である」という情報にも意味があります。
実際、2mの棒を5個つなげると10mの棒と同じ長さいなるからです。このことは温度の場合と比べるとわかりやすいです。
10度は2度の5倍の数値ですが、この5倍という値には何の意味もありません。
長さのように値の比にも意味がある数値は「比尺度」(ratio scale)を構成しているといいます。
以上まとめて、どの尺度にはどのような情報に意味あるかを示したのが以下の表です。
これら4種類の尺度の性質の違いは、尺度の水準または測定の水準とよばれています。
許容される変換
順序尺度をなす鉱物の硬さは、5種類の鉱物に5、4、3、2、1という数値を割り当てても、10、4、3、2、1という数値を割り当てても、大小関係に関する情報を正しく保持しています。
順序尺度の場合は、このように、もとの数値にどのような単調変換を施しても順序尺度としての機能は損なわれません。
このことを「順序尺度の場合、任意に単調変換が許容される」といいます。
このように、それぞれの水準の尺度は、どのような変換に対してその機能を保持できるかという観点から特徴づけることができます。
下の表は4水準の尺度について、それぞれどの変数のもとで尺度の機能が保持されるか、すなわち各尺度水準における許容される変換を一覧表にしたものです。
パラメトリック法とノンパラメトリック法
5種類の鉱物に5、4、3、2、1という割り当てをする場合、5の鉱物と1の鉱物の硬さの平均(3)は、4の鉱物と3の鉱物の硬さの平均(3.5)より小さいが、10、4、3、2、1という割り当てにすると、上記の同じ2つずつの鉱物の平均が、5.5と3.5になって大小が逆転します。
つまり、順序尺度の機能がそのまま保持される変換(単調変換)を行ったら、平均値の比較結果は変わってしまうということです。
このことは、順序尺度のデータにおいて平均値を求めて比較することは適切でないということを意味しています。
平均や相関係数など多くの統計的指標やパラメトリック法は基本的に間隔尺度・比尺度のデータへの適用を想定しています。
一方、順序尺度・名義尺度のデータに対してはノンパラメトリック法とよばれる一連の方法が用意されています。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
数値データの4種類の尺度について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
数値データを測るとき、4種類の尺度があります。これらは、名義尺度、順序尺度、間隔尺度、比率尺度です。
名義尺度:これは、カテゴリーやグループを区別するために使います。例えば、血液型(A型、B型、O型、AB型)がこれにあたります。数値は、ただのラベルで、大小や順序はありません。
順序尺度:これは、順番やランクを表すために使います。ただし、間の差が同じとは限りません。例えば、映画の評価で「良い」「普通」「悪い」とする場合、これが順序尺度です。順番はありますが、良いと普通の差と、普通と悪いの差が同じかはわかりません。
間隔尺度:これは、順序があり、間隔も一定です。しかし、ゼロ点が任意で、絶対的な意味を持ちません。例えば、温度計の摂氏や華氏がこれにあたります。0度が「ない」状態を意味しないためです。
比率尺度:間隔尺度と似ていますが、ゼロ点が「ない」状態を意味し、比較が可能です。例えば、重さや長さがこれにあたります。0は「何もない」状態を意味し、2倍は本当に2倍の量を意味します。
これらの尺度は、データをどう分析するか、どんな統計手法を使うかを決めるのに重要です。
関連リンク