測定の科学:データを読む鍵【ChatGPT統計解析】

測定の科学:データを読む鍵【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

測定の科学:データを読む鍵【ChatGPT統計解析】

測定の科学:データを読む鍵【ChatGPT統計解析】
測定は対象や現象を数値化することで、科学的研究や日常生活での理解を容易にするプロセスです。物理量(例:身長、体重)や抽象概念(例:知能、幸福度)を測定する際には、適切な尺度や方法を選択し、信頼性と妥当性を確保するために標準化された手法や統計的手法が使用されます。測定には名義尺度、順序尺度、間隔尺度、比尺度の4つのレベルがあり、それぞれが異なる性質を持ちます。名義尺度データはラベルとして機能し、順序尺度データは意味のある順序を持ちます。間隔尺度データは等間隔を持ち、比尺度データは自然数的な0点を持ちます。連続データと離散データの違いも重要で、連続データは任意の値を取ることができ、離散データは特定の値しか取れません。これらの違いを理解することで、適切な統計手法を選択し、データの特性をより正確に理解することができます。

測定の科学:データを読む鍵【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  測定の科学:データを読む鍵【ChatGPT統計解析】

 

測定は対象や現象を客観的に理解し定量的に記述するための手法

 

測定(measurement)は、人類が知識を築く上で欠かせない基本的な手法の一つです。

 

このプロセスは、対象や対象間の関係を数値化し、その特性を記述することで、科学的な理解や分析を容易にする役割を果たします。

 

測定は、自然科学から社会科学、経済学、心理学、教育学など、さまざまな領域で幅広く利用されています。

 

まず、測定の基本的な目的は、対象の特性や属性を数値で表現することです。

 

これにより、対象の性質や変化を定量的に捉えることが可能になります。

 

例えば、身長や体重、温度、時間などの物理量は、日常生活でよく使用される測定の例です。これらの物理量は、適切な計器を用いて定量化され、数値として表されます。

 

さらに、抽象的な概念や現象を測定することも重要です。例えば、知能や学習能力、幸福度などの心理学的な要素は、適切な測定法を用いて数値化されることがあります。

 

これにより、これらの抽象的な概念を客観的に評価し、科学的な研究や分析に活用することが可能になります。

 

測定の過程では、適切な尺度や単位系の選択が重要です。尺度は、測定される対象やその特性に応じて選択されます。

 

例えば、物理量の測定には、国際単位系(SI単位)が広く使用されますが、心理学や教育学のような分野では、その対象や目的に応じて専門的な尺度が選択されます。

 

測定の結果は、信頼性と妥当性が重要です。信頼性は、測定が一貫して行われることや再現性があることを示し、妥当性は、測定が対象を正確に反映していることを示します。

 

これらの要素を確保するために、標準化された手法や統計手法が用いられます。

 

一方で、測定にはいくつかの課題や制約もあります。例えば、測定値が直接観測できない場合や、抽象的な概念を測定する場合は、信頼性や妥当性を確保することが難しくなります。

 

また、測定の過程で生じる誤差や偏りも考慮する必要があります。

 

測定は科学的な研究や日常生活において不可欠なツールであり、対象や現象を客観的に理解し、定量的に記述するための重要な手法です。

 

正確で信頼性の高い測定結果を得るためには、適切な尺度や方法の選択、標準化された手法の適用、そして適切な統計的解析が欠かせません。

 

測定の4種類のレベル

 

統計家は、測定の4つのレベルを区別します。それぞれのレベルで測定されたデータは、対応するレベル名で呼ばれます。測定レベルごとに、数値の意味や統計手続きの種類に違いがあります。

 

名義尺度データでは、数値は名前やラベルとして機能し、数字としての意味はありません。例えば、性別を表す変数の値には、男性なら1、女性なら0の値が当てられます。

 

これらの数値は単にラベルとしての機能しか持ちませんが、研究者が数で符号化する理由には、データの分析を単純化するためや、データ入力の問題を回避するためなどがあります。

 

名義尺度データはカテゴリが2つとは限らず、複数のカテゴリを持つ場合もあります。

 

順序尺度データは、意味のある順序を持つデータを指します。例えば、火傷の程度を表す「度」や、候補者の選好を示す順位などが挙げられます。

 

順序尺度データでは、順序に基づいて並べられますが、値の差に対する意味は不明確です。

 

間隔尺度データは、意味のある順序と等間隔を持ちます。例えば、華氏温度などが挙げられます。間隔尺度データでは、加法や減法が可能ですが、乗法や除法は意味を持ちません。

 

比尺度データは、順序と等間隔という性質に加えて、自然数的な0点を持ちます。身長や体重などが比尺度データの例です。比尺度データでは、加法や減法だけでなく、乗法や除法も可能です。

 

また、連続データと離散データの違いも重要です。連続データは、どんな値でも取り得る連続的な変数を指し、離散データは決まった値しか取り得ない変数を指します。

 

これらの区別を理解することで、適切な統計手法や解析が行われ、データの特性をより正確に理解することができます。

 

 

名義尺度データ

 

名義尺度データ(nominal data)では、その名の通り数値は、名前またはラペルとして機能しており、数字としての意味はありません。

 

例えば、性別を表す変数の値に、例えば、その人が男性ならば1を、女性ならば0の値を当てます。

 

この0と1には数としての意味はなく、M(男性)、F(女性)のような値と同様に、単にラベルとしての機能しか持っていません。

 

しかし、研究者が数で符号化するのを好むのにはいくつか理由があります。

 

1つは、これによってデータを分析する作業を単純化できるためです。

 

なぜなら、統計プログラムのいくつかは特定の処理では、数ではない値を受け付けないためです(その場合、非数他符号化データは、分析する前に数で符号化し直さなければなりません)。

 

2つ目は、数を使った符号化はデータ入力の問題をいくつか回避します。

 

例えば大文字/小文字の混同のような問題である(コンピュータにとって、Mはmとは異なる値ですが、データ人力者はこの2つの文字を同じものとして扱う可能性があります)。

 

名義尺度データはカテゴリが2つとは限りません。

 

例えば、野球選手の経験の長さと年俸の関係を調査しているならば、おそらく、1はピッチャー、2はキャッチャー、3はファースト等々の伝統的な割り振り方を使って選手をポジションで分類するでしょう。

 

データが名義尺度のレベルかどうかわからなければ、次の質問をしてみましょう。

 

「このデータに付けられた数は、商い値が低い値のものよりその対象の質が高いことを示しているのか」と。

 

0が女性、1が男性を意味する性別の符号化例を考えてみましょう。

 

性別特性として女性より男性の方が多く持つ何かがあるでしょうか。

 

明らかにそんなことはありません。

 

女性を1、男性を0と符号化しても、符号化の結果は同じようにうまくいくはずです。

 

同じ原理は野球の例にも当てはまります。

 

外野手がピッチャーより野球の質が高いわけでは決してありません。

 

そういった数値は、研究では対象にラベルを付けるのにただ便利な方法だというだけです。

 

そして、最も重要なポイントはすべてのポジションが異なる値を付けられているという点です。

 

名義尺度データはカテゴリデータ(categorical data)とも呼ばれます。

 

名前が示す通り、質を測るのではなく、対象をカテゴリに振り分ける測定法(男性または女性、キャッチャーまたはファーストというように)です。

 

ノンパラメトリック統計(分布に依存しない統計)について取り扱う技法のうちいくつかは、カテゴリデータにも適用されます。

 

データが男性・女性の例のように2つの値だけを取るとき、それは二値データ(binary data)とも呼ばれます。

 

この種のデータはそれ自体を研究するため、多くの分野で利用されるロジステイック回帰をはじめ、特別な技術が開発されるほど一般的なものであり、オッズ比とリスク比など多くの医療統計も医学研究では二値変数の関係を述べるために開発されました。

 

順序尺度データ

 

順序尺度データ(ordinal data)は意味のある順序を持つデータを指します。

 

低い値より高い他は何らかの特性が強いということです。

 

例を挙げると、医療現場で普通は火傷を「度」で表します。

 

「度」とは、火傷で破壊された細胞の量を表します。

 

1度の火傷は、肌が赤くなり、痛みはそれほどではなく、損傷は上皮(皮膚の外側の屑)までという特徴があります。

 

2度の火傷では水膨れを起こし、真皮(上皮と皮下の細胞の間の皮膚層)の表面にまで関わってきます。

 

3度では真皮の奥まで範囲は広がり、肌が黒く焦げ、神経が破壊し尽くされる、と特徴付けられています。

 

これらのカテゴリは論理的頷序で順番が決められています。

 

1度の火傷は、細胞の損傷からいえば最もひどくなく、2度の火傷はそれよりも、そして3度の火傷は最も損傷が深刻です。

 

しかし、カテゴリ間で違いがどれほどあるのかは測定尺度がありません。

 

1度と2度の火傷の差が、2度と3度の火傷の差と同じであるか否かは確定すらできません。

 

多くの順序尺度データが順位を持ちます。

 

例えば、仕事に応募した候補者は新人社員として最も望ましい順に人事部によって順位がつけられるでしょう。

 

この順位から誰が最も望ましい候補者なのか、2番目は、その次は、とわかります。

 

しかし実のところ1位と2位は僅差なのか、1位が2位を大きく上回ってるのかはわかりません。

 

国々をその人口でランク付けすることもできます。

 

意味のある順に並べることはできますが、例えば、30位と31位の国の差が、31位と32位の差と同じかどうかには何も触れません。

 

順序尺度データで計測に使われる数字は、名義尺度データよりも多くの意味を持っています。

 

多くの統計技術は順序情報をその特性だけで利用するよう開発されてきました。

 

例えば、順序尺度データでは、平均ではなく中央値(中点の値)を計算するほうが適切です。

 

なぜならば、平均はデータが間隔尺度であることが前提であり、比尺度レベルデータの除法を必要とするからです。

 

間隔尺度データ

 

間隔尺度データ(interval data)には、意味のある順序があり、計測値の間が等間隔という性質を対象の量変化として表します。

 

間隔レベルでの計測の最も一般的な例は、華氏温度です。

 

華氏10度と25度の違い(15度の差)の違いは60度と75度の違いと同じだけの温度変化量を意味します。

 

10度の違いがすべての目盛上で同じ変化量を意味するため、加法と減法が間隔尺度データでは可能となります。

 

華氏目盛の0は温度がないという意味ではなく、単に他の温度と比較したときその地点にあるというだけで、華氏目盛は自然数的な0点を持ちません。

 

80度は40度よりも40度熱いと言えるが、80度は40度の2倍熱いという意味はなく、乗法/除法は間隔尺度データには使えません。

 

間隔尺度データがそれだけで使われることはあまりなく、華氏目盛以外に一般的な例は思いつきません。

 

このため、「間隔尺度データ」という用語は、間隔尺度データと比尺度データの両方を指すように用いられることがあります。

 

比尺度データ

 

比尺度データ(ratio data)は、順序と等間隔という性質の間隔尺度データと自然数的な0点の存在という性質を持っています。

 

多くの物理的な計測は比尺度データとなります。

 

例えば、身長、体重、年齢はすべて比尺度データとみなせます。

 

収入も同じです。

 

間違いなく、1年の稼ぎが0円であることも、口座残高が0円であることも可能であり、これはお金がないことを意味しています。

 

比尺度レベルデータでは、加法/減法と乗法/除法が可能です。

 

所持金が100円の人は所持金が50円の人の2倍お金を持っています。

 

また、30歳の人は10歳の人よりも3倍年をとっています。

 

多くの物理的な計測は比レベルですが、心理学的な計測は順序レベルである点には留意する必要があります。

 

これは特に価値や好みの計測に当てはまり、それらはリッカート(Lickert)尺度でよく測定されます。

 

例えば、意見書(「連邦政府は、教育に対する援助を増やさなければいけない」など)を渡され、順に並べられた項目(例えば、1.強く同意する 2.同意する 3.同意も反対もしない 4.反対する 5.強く反対する)から答えを選ぶように求められることがあります。

 

これらの選択肢には数字(1:強く同意する 2:同意する、など)が割り当てられています。

 

そしてこれはときに、問隔や比の技法(例えば、平均は除法を使うため、比の技法を使っている)をそのようなデータに適用してもよいという印象を人々に与えます。

 

これは正しいのでしょうか。

 

統計家の観点では間違いですが、絶対正しいと自分が思っていても上司の意に沿わなければならないときもあるのです。

 

連続データと離散データ

 

もう1つ重要な区別は、連続データと離散データとの違いです。

 

連続データはどんな値でも、すなわち、ある範囲でのどんな値でもとることができます。

 

間隔尺度データや比尺度データで測定される多くのデータは、数え上げに基づくもの以外は連続的です。

 

例えば、重さ、高さ、距離、収入はすべて連続的です。

 

データ分析とモデル構築の過程で、研究者は連続データをカテゴリ、すなわち大きなまとまりに変えることがあります。

 

例えば体重をポンドで記録したが、分析では10ポンドごとにするし、何歳ということで年齢を記録しても、0-17歳、18-65歳、65歳以上というカテゴリで分析します。

 

統計的見地からいうと、特定の分析技術を使用するデータが連続になるか、不連続になるか(年齢を何歳で記録しても、依然として不連続なカテゴリを連続変数にあてはめていることは覚えておくべき)という絶対的な基準は何もありません。

 

これまで、さまざま規則が提案されてきました。

 

例えば、ある変数に10以上のカテゴリ、あるいは、16以上のカテゴリがある場合、連続的であるとして問題なく分析できると一部の研究者は言います。

 

これは、使用標準、特定分野の慣例、分析方式などの情報といった文脈に基づいて出された考えです。

 

離散変数は収り得る値が決まっていて、値と値の間に明確な境界があります。

 

古い冗談ではあるが、人は2人または3人の子供を持つことはできますが、2.37人の子供を持つことはできません。

 

そのため、「子供の人数」は離散変数です。

 

実際1年問に購入された本の冊数や、妊娠中の定期検診の受診回数など、実際に数えるのかどうかに関わらず、数え上げに基づく変数はどれも不連続です。

 

二値データや順位順序尺度データのように、名義尺度で測定したデータもまた常に不連続です。

 

 

測定の科学:データを読む鍵【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

測定の科学:データを読む鍵【ChatGPT統計解析】

測定の科学:データを読む鍵【ChatGPT統計解析】