Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学におけるデータの分布と可視化【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学におけるデータの分布と可視化【統計解析講義基礎】

統計学におけるデータの分布と可視化【統計解析講義基礎】


統計学におけるデータの分布と可視化【統計解析講義基礎】

 

統計調査によって集められるデータは、質的データと量的データに大きく分けられます。

 

大雑把に言えば、量的データとは平均に意味があるデータで、質的データはそうではないデータです。

 

また、データは直感的に把握できるようにするための「可視化」が重要です。

 

尺度水準

 

調査によって集めたデータは、ふつう数値で表されています。

 

というよりも、統計学では、集めたデータに対して計算をすることで、データの集まりから情報をとり出そうとするものですから、数値で表されたデータを用いるのが普通です。

 

ただ、データが数値で表されているからといって、必ずしも「数量」を表しているとはかぎりません。

 

たとえば、三択問題で@ABは選択肢の名前にすぎず、数量を表してはいません。A,B,Cでも構わないわけです。

 

そこで統計学では、数値で表されたデータを、それが数量としての意味をどの程度もっているかによって、4つのレベルに分類しています。

 

これを尺度水準といいます。

 

一番レベルが低いのは、名義尺度です。

 

これは、さきほどの三択問題の@ABや、男性_1・女性_2のような数値で、数値は選択肢を区別するためだけにあり、2番が1番より「大きい」という意味ではありません。

 

次のレベルにあたるのが順序尺度です。これは、この講義に満足しましたか、という設問に対し、

 

@非常に不満 A不満 B満足 C非常に満足

 

といった調査で得られる数値です。

 

この例では、番号の順序に意味があり、Aには、満足度が@より大きいという意味合いがあります。

 

しかし、BとAの満足度の差と、Aと@の満足度の差が同じということはありませんし、ましてやCはAに比べ2倍満足しているという意味でもありません。
名義尺度や順序尺度のようなデータを、質的データといいます。質的データは、足し算、引き算をすることができません。

 

一方、さらに上のレベルのデータは、足し算、引き算ができるデータで、これを量的データといいます。

 

量的データは、さらに次の2つのレベルに分けられます。

 

間隔尺度は、数値の間の順序だけでなく、数値の間の間隔にも意味のあるデータです。

 

たとえば、摂氏温度は間隔尺度で、0℃と10℃の差と、10℃と20℃の差はどちらも10度で、同じ意味があります。

 

しかし、20℃が10℃の2倍暖かいという意味ではありません。

 

もしそうなら、20℃は−10℃の何倍暖かいのか、ということになってしまいます。

 

間隔尺度の性質をもち、さらに「データ間の比率」にも意味があるのが、最上位のレベルである比例尺度です。

 

たとえば、40歳の人は20歳の人の2倍の年数を生きていますから、年齢は比例尺度です。

 

温度でいえば、絶対温度(それ以上冷やすことのできない絶対零度をゼロ度とした温度)は比例尺度で、絶対温度が2倍であれば2倍のエネルギーを表しています。

 

データの整理の方法として、平均(算術平均)がよく知られていますが、算術平均はデータを足し算してデータの数で割ることですから、量的データでなければ意味がありません。

 

先に順序尺度の例としてあげた「授業評価」でも平均点を出していることがありますが、厳密には意味がないことになります。

 

ただ、このような調査では「各番号の満足度の間隔がおおむね等しい」つまり、近似的に間隔尺度であると仮定して、平均にも意味があるとする考え方もあります。

セミナー詳細こちら                    解析ご相談こちら


 

統計学におけるデータの分布と可視化【統計解析講義基礎】

統計学におけるデータの分布と可視化【統計解析講義基礎】

統計学におけるデータの分布と可視化【統計解析講義基礎】