Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学におけるデータの要約【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学におけるデータの要約【統計解析講義基礎】

統計学におけるデータの要約【統計解析講義基礎】


統計学におけるデータの要約【統計解析講義基礎】

 

データ全体を眺めることはデータ全体の様子を知るために重要ですが、複数の分布を調べる場合などには、より比較しやすくするために分布の特徴と「要約する」ことが望ましいといえます。

 

一般的に知られている平均値など、1つの数値(指標)でデータを要約することによってデータ全体の把握や複数のデータの比較が容易となります。

 

データの中心と順位に対する指標

 

データを分析する際にデータの分布を知ることは重要です。

 

特にデータの中心の位置や集中度を考えることは複数のデータを比較する際にも有意義です。

 

データを1つの数値に要約してデータの中心の位置を表すことがあります。

 

この数値をデータの「代表値」といいます。

 

代表値でよく知られている数値には「平均値」(算術平均)があげられます。

 

平均値はデータのすべての観測値の合計の値を観測値の個数である標本サイズで割って求める数値です。

 

平均値はすべての観測値を「平らに均した値」であり、データの中心の位置を表し、実社会において広範囲に利用されています。

 

平均値は概念の理解のしやすさや計算の求めやすさから多くの報告書やメディアなどでもみられます。

 

しかし、平均値の定義上、使用には注意が必要です。

 

例えば、他の観測値に比べ大きき外れた値(外れ値といいます)がある場合、平均値はその値に引っ張られます。

 

具体的には所得のデータのように低・中所得者が多いなか、所得の平均値は少数の高所得者に引っ張られ、イメージよりもやや高めの代表値となります。

 

また計算上の数値のため、平均値に近い観測値がない場合もあります。

 

このように平均値ではデータの代表値と考えるには誤解を与える場合があるため、その他の意味での代表値を考える必要があります。

 

平均値以外の代表値としてよく知られている数値に「中央値」(メジアン)があります。

 

中央値はデータを小さい順(または大きい順)に並び替え、そのちょうど真ん中になる値です。

 

標本の大きさが奇数の場合は、真ん中となる1つの観測値が中央値となり、偶数の場合は、真ん中となる2つの観測値の相加平均を中央値とします。

 

中央値は順序情報によって求めるため、平均値とは異なり、外れ値の影響を受けにくい性質があります。

 

データを表(度数分布表)で集計することにより、データの分布をみることが可能です。

 

この場合、最も度数が多い階級をデータの代表と考えることができます。

 

このことから最も度数が多い階級の階級値を「最頻値」(モード)とよびます。

 

最頻値も代表値の1つです。最頻値は度数分布表に対応するヒストグラムの山において、ちょうど山の頂点になる部分です。

 

最頻値は単に出現頻度の最も高い場合の観測値を意味することもあり、この場合は名義尺度においても最頻値を求めることができます。

 

実際の分析においては、同時に複数の代表値をみながら分析することが望ましいです。

 

特に図1にみるように分布が一方に偏る場合、3つの代表値は異なっています。

 

また「正規分布」とよばれる分布のように左右対称の山型の場合、この3つの代表値はほぼ近い数値になります。

 

データ分析を行う際には要約された数値のみに着目するのではなく、グラフも同時に併用しながら分析することが重要です。

 

またデータの全体における特徴的な位置を考えることも実社会で利用されています。

 

データの観測値の最小、最大の観測値を表す最小値や最大値以外にも、データ全体を100%として考え、特定の位置を考える「パーセンタイル」(パーセント点ともいいます)などがあります。

 

これらは母子手帳における乳幼児の身長などの表現にも使われています。

 

パーセンタイルはデータ全体を百分割した値(百分位数)ですが、同様に十分割した「十分位数」、四分割した「四分位数」が用いられます。

 

また、それぞれの数値は小さい方から「第1四分位数」「第2四分位数」などとよばれます。

 

データの散らばりに対する指標

 

データの分布の中心を考えると同様にデータに含まれる観測値の散らばりを考えることも分布を考える際に重要です。

 

この散らばりの程度を要約した数値のことを「散布度」といいます。

 

よく知られている散布度にはデータのすべての観測値が含まれる区間の大きさを表す「範囲」(レンジ)や、中心を含むデータの半分(50%)を含む区間の大きさを表す「四分位範囲」などがあります。

 

定義から範囲は最大値から最小値を引いた値、四分位範囲は第3四分位数(75%点)から第1四分位数(25%点)を引いた値です。

 

なお、四分位範囲の半分の大きさの「四分位偏差」という指標もあります。

 

範囲や四分位範囲では区間の端の値のみ考慮し、各観測値の散らばりは考慮されません。

 

そこで、平均値に対する各観測値の散らばりを考慮し、その程度を測った「分散」「標準偏差」を利用します。

 

分散は平均値と観測値の差である偏差を考え、この偏差平方和を標本の大きさで割った数値です。

 

また標本調査のように母集団の推測を行う場合は、標本の大きさから1を引いた値で割る「不偏分散」が利用されます。

 

分散は偏差を平方するため、単位が元の観測値と異なります。

 

そこで、単位を元の観測値とそろえるために分散の平方根を求め、この数値を「標準偏差」とよびます。

 

また分散や標準偏差は平均値に対する差である偏差をもとに計算するため、平均値の大きさや単位によっても影響を受けるため誤解を招くことがあります。

 

そのために標準偏差の値を平均値で割り、平均に対する標準偏差の大きさを比率で求めた「変動係数」を使うこともあります。

 

その他の有用な指標

 

データの要約値は上記以外にも分布のゆがみ具合を測る「歪度」や尖り具合を測る「尖度」などがあります。

セミナー詳細こちら                    解析ご相談こちら


 

統計学におけるデータの要約【統計解析講義基礎】

統計学におけるデータの要約【統計解析講義基礎】

統計学におけるデータの要約【統計解析講義基礎】