Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における測定尺度【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における測定尺度【統計解析講義基礎】

統計学における測定尺度【統計解析講義基礎】


統計学における測定尺度【統計解析講義基礎】

 

行動科学のほとんどの研究は、数字という形でデータを集めています。

 

ふつう、実際の数字に興味があるのではなく、数字が表すものに興味があります。

 

測定とは対象や出来事に、事前に決めたルールに沿って数字を割り振ることです。

 

数字の割り振りにはいくつものルールがあるので、同じ数字でも異なる意味をもちます。

 

それは数字の割り振り方のルールに依存しています。

 

測定には4つの水準があります。

 

尺度水準ごとに、その数字が適用される特別な次元性が想定されている、と考えるのです。

 

名義尺度

 

名義尺度のルールで割り振られる数字は、ラベリングです。

 

フットボールのジャージの上に書かれた数字、データセットにおいて女性が1、男性が2とされること、社会保障番号などが、名義尺度の例です。

 

名義尺度を使うとき、人はその数字をその対象の名前以上に解釈することができません。

 

さらにいえば、もし男性が2、女性が1と割り振られていたら、これはダミーコーディングとしてよく知られている方法ですが、男性が女性の2倍であることを意味するわけではありません。

 

2つのカテゴリーがある場合、名義尺度は二値変数と呼ばれます。性別は二値変数です。

 

もし変数が特徴の有無で決められるのであれば、それも二値変数です。

 

2つ以上のカテゴリーを含む変数であれば、質的、カテゴリカル、ノンメトリックなどさまざまな呼ばれ方をします。

 

さらに、そのカテゴリーが生じた回数やパーセンテージを表している表に使われるとき、それは頻度(度数)とよばれます。

 

カイ2乗値や対数線形分析は、度数形式のデータに対して施されます。

 

測定の形式やレベルを分類に際して考慮することが奇妙に思えたかもしれませんが、この測定水準は非常に基本的なものであるため、測定として考えられることはあまりありません。

 

それでも、より高次の測定水準のために必要な条件なのです。

 

名義尺度は、対象が互いに排他的で網羅的なカテゴリーであることが不可欠となります。

 

言い換えれば、各被験者や観測値はどこか1つ、しかもそこだけのカテゴリーに割り当てられ、すべての観測値や被験者は特定のカテゴリーに分類されます。

 

たとえば、治療に対する反応を予測する変数群を特定するような研究がしたいとしましょう。

 

すべての被験者は反応する側か、反応しない側かという2つのカテゴリーのとぢらかに割り当てられます。

 

相互に排斥的で余すことなくカテゴライズされるというルールに従って、被験者は一方だけのカテゴリーに分類され、けっして両方に該当することはありません。

 

そしてすべての被験者がどちらかのカテゴリーに分類されるのです。

 

名義尺度を使うときには、一貫した分類のルールを使うことが求められます。

 

つまり、この例では、研究者は反応する、しないの定義をはっきりとさせておかなければなりません。

 

ある例では、反応する側は不安の範囲が「通常」である人と定義され、反応しない側はこの範囲外のものである、といったように定義されます。

 

カテゴリー間の違いは、程度の違いというよりも種類の違いの1つであることは、とくに強調しておきたいところです。

 

これは名義尺度で測定することの基本的な特徴です。

 

さらに言えば、カテゴリーの数はカテゴリー化の枠組みで使われる基準、規範を反映したものであるとみなされます。

 

研究者がよいカテゴリー化を行っているかどうかは、実践的・理論的文脈(あるいはその両方)においてのみ判断されます。

 

ロジスティック回帰分析や判別分析は、従属変数がカテゴリカルな変数のときに使われます。

 

MANOVAにも独立変数としてのカテゴリカル変数があります。

 

順序尺度

 

順序尺度は観測がカテゴリー化されているという点で、名義尺度と同じ特徴をもっています。

 

しかし、順序的数字は他の数字との関係について、特別な意味を有しています。

 

大きい数字は小さい数字よりも大きな何かの量、というように。

 

順序尺度はある特性の序列順位を表しています。

 

順序尺度は質的だと言われますが、そこには限定された意味での量の考え方が含まれています。

 

順序は何かがより多い、より少ないことを表していますが、どれほど多いか、少ないか、ということは示しません。

 

1位と2位の違いは4位と5位の差が示すものと同じ量であるわけではありません。

 

言い換えれば、隣接した順序間の間隔が、順序範囲全体を通して一貫していないのです。

 

間隔尺度

 

3番目は間隔尺度です。

 

間隔尺度は異なる数字が異なることを示すという意味では、名義尺度の性質をもっています。

 

また間隔尺度は、異なる数字が何らかの大小を表しているという点で順序尺度とも似ています。

 

しかし、それ以上に、間隔尺度は尺度上で等しい距離があれば、尺度の背後に仮定された次元上の距離も等しいことを表しています。

 

(温度の)華氏は間隔尺度です。華氏80度と85度の違いは、90度と95度の違いと同じ量です(水銀の単位で計測されます)。

 

順序尺度と間隔尺度の区別は、いつも簡単にできるわけではありません。

 

特に行動科学においては、たとえば、IQ100の人と105の人の間の違いは、45と50の人の違いと同じでしょうか。

 

数字的な距離は同じであっても、順序尺度で定義されるか間隔尺度で定義されるかによって、数字の意味が変わってきます。

 

尺度が表す背後にある隠された次元が重要なのです。

 

IQ100と105の人の違いが示す「知能の量」は、IQ45と50の人が示す「知能の量」と同じなのでしょうか。

 

もう1つ例を挙げれば、抑うつ尺度で取りうる最も高いスコアは30ですが、このスコアが20の人と30の人の抑うつの程度が、5と15のときの程度の違いと同じなのでしょうか。

 

多くの統計的検定は、データが等間隔次元を反映していることを必要としています。

 

しかし、ある変数の尺度が等間隔で測ることができるのかどうかは常に考えておかねばならないのですが、行動科学は間隔尺度としてその測度をよく想定したがります。

 

しかし、そうしたことに経験的な証拠はありません。

 

分析の多くは連続尺度に適用されるものです。

 

重回帰分析を自記式尺度のスコアを予測するのに使うとき、基準変数は連続的な尺度で測定されています。

 

MANOVAは従属変数が連続的で、判別分析は独立変数が連続的な場合に使われます。

 

比率尺度

 

比率尺度は間隔尺度のすべての特徴を保持し、さらに絶対的な零点に意味をもつ尺度です。

 

間隔や比率尺度で集められたデータは、「計量(メトリック)データ」ともよばれます。

 

華氏はゼロが「熱がまったくない状態」を意味するわけではないので、比率尺度ではありません。

 

長さは比率尺度です。

 

なぜなら、そこには絶対的な零点(長さがないという状態)があるからです。

 

比率尺度の1つの特徴は、数学的に2倍の大きさをもつものは、それが何を測っているのであっても、2倍大きいことを表しています。

 

たとえば、IQ100は50の2倍の知能を表すものではないため、IQはこの特徴をもちません。

 

一方で、身長の仮定する次元は絶対零点をもっているから、2mの人は1mの人の2倍大きいといえます。

 

時間もまた、絶対零点をもつ変数の1つです。

 

したがって、人の反応時間が0.5秒というときは、0.25秒で反応する人の倍時間がかかっています。

 

行動科学において、比率尺度の性質をもった変数は珍しく、いくつかの測定変数が比率尺度として測定されているように見えます。

 

行動科学の世界ではそのくらいが関の山ということです。

 

業績、適正、人格特性や精神病理学の測度では、意味のある絶対零点はありません。

 

原点として提供される絶対零点がない場合には、2つの異なるスコアはそれぞれ相対的にしか解釈できません。

 

あるスコアが他のスコアの2倍のサイズであったとしても、測られたものの量が2倍であるわけではありません。

 

一般的に、妥当な統計解析を選ぶときに最も重要なことは、名義尺度(カテゴリカルデータ)、順序尺度(ランクデータ)、連続尺度(間隔・比率尺度水準)を区別することです。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学における測定尺度【統計解析講義基礎】

統計学における測定尺度【統計解析講義基礎】

統計学における測定尺度【統計解析講義基礎】