Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における標準偏差の具体的意味【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における標準偏差の具体的意味【統計解析講義基礎】

統計学における標準偏差の具体的意味【統計解析講義基礎】


統計学における標準偏差の具体的意味【統計解析講義基礎】

レンジと標準偏差との関係

 

標準偏差は、もとのデータのバラツキの度合いの何を、どのように表しているのでしょうか。

 

言い換えれば、この標準偏差の大きさから、データのバラツキをどのように読み取れるでしょうか。

 

計算さえすれば、分散でも標準偏差でも、一応出てきます。

 

しかしその結果の数字の意味がいまひとつピンときません。

 

したがって、「標準偏差が理解できた」という人の大部分は、計算の手続きがわかったにすぎない場合が多いです。

 

一方、「レンジ」は具体的意味を持っていました。

 

レンジは最大値と最小値の差なので、これはわかりやすいです。

 

では、このレンジと標準偏差とには関係があるのでしょうか。

 

あるとすればどんな関係でしょうか。

 

完全な1対1の対応関係はありませんが、両者にはおおよそ次のような関係があります。

 

@データ個数n=3-5くらいのとき、標準偏差はレンジの約2分の1

 

Aデータ個数n=10前後のとき、標準偏差はレンジの約3分の1

 

本当は、もっと精密な数表があるのですが、ここではこの程度に理解しておきましょう。

 

この関係を用いれば、標準偏差の計算の煩わしさを回避することができます。

 

たとえば、コーヒー好きの友人数人が集まって、1日何杯のコーヒーを飲むかという話をしていて、最大が10杯、最小が2杯だとすると、

 

すぐレンジの8÷3=約3と暗算して、標準偏差は3杯くらいと見当がつきます。

 

あとでExcelで標準偏差を計算してみると、だいたい合っています。

 

ただし、データ個数が多くなるにしたがって、レンジでは無視されるデータ数が増えてくるので、両者の関係はうすくなります。

 

度数分布と標準偏差

 

では、原データの分布と標準偏差との関係はどうか。ある計算実験を行ってみましょう。

 

以下のデータで、平均値と標準偏差を計算してみましょう。

 

122, 126, 123, 125, 123, 128, 123, 127, 125, 128

 

計算すると、

 

平均値=125
標準偏差=2.2

 

となります。

 

ここで、下限=m−σ、上限=m+σ

 

として、この幅をとります。

 

すると、

 

122.8から127.2の幅になります。

 

この幅の中には、

 

126, 123, 125, 123, 123, 127, 125

 

の7個のデータがあります。

 

つまり、±標準偏差の中に、約7割のデータが入っているのです。

 

データが正規分布をしているならば、±標準偏差の中に68.3%のデータ(約68%)が入っていることになります。

 

この68という数字は覚えておくとあとあと非常に便利です。

 

ついでに、データが正規分布をしているならば、±1.96×標準偏差の中に95%のデータが入っていることになります。

 

よく教科書ではこれを標準偏差の2倍と解説していますが、2ではなく1.96で覚えましょう。

 

1.96倍にするとちょうど95%になるからです。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学における標準偏差の具体的意味【統計解析講義基礎】

統計学における標準偏差の具体的意味【統計解析講義基礎】

統計学における標準偏差の具体的意味【統計解析講義基礎】