レンジ(範囲)と標準偏差:標準偏差はレンジの約2-3分の1|度数分布と標準偏差【統計学・統計解析講義基礎】
データ個数n=3-5くらいのとき、標準偏差はレンジの約2分の1、データ個数n=10前後のとき、標準偏差はレンジの約3分の1となる。データが正規分布をしているならば、±標準偏差の中に68.3%のデータ(約68%)が入っている。±1.96×標準偏差の中に95%のデータが入っている
レンジ(範囲)と標準偏差:標準偏差はレンジの約2-3分の1
標準偏差は、もとのデータのバラツキの度合いの何を、どのように表しているのでしょうか。
言い換えれば、この標準偏差の大きさから、データのバラツキをどのように読み取れるでしょうか。
しかしその結果の数字の意味がいまひとつピンときません。
したがって、「標準偏差が理解できた」という人の大部分は、計算の手続きがわかったにすぎない場合が多いです。
一方、「レンジ」は具体的意味を持っていました。
レンジは最大値と最小値の差なので、これはわかりやすいです。
では、このレンジと標準偏差とには関係があるのでしょうか。
あるとすればどんな関係でしょうか。
完全な1対1の対応関係はありませんが、両者にはおおよそ次のような関係があります。
@データ個数n=3-5くらいのとき、標準偏差はレンジの約2分の1
Aデータ個数n=10前後のとき、標準偏差はレンジの約3分の1
本当は、もっと精密な数表があるのですが、ここではこの程度に理解しておきましょう。
この関係を用いれば、標準偏差の計算の煩わしさを回避することができます。
たとえば、コーヒー好きの友人数人が集まって、1日何杯のコーヒーを飲むかという話をしていて、最大が10杯、最小が2杯だとすると、
すぐレンジの8÷3=約3と暗算して、標準偏差は3杯くらいと見当がつきます。
あとでExcelで標準偏差を計算してみると、だいたい合っています。
ただし、データ個数が多くなるにしたがって、レンジでは無視されるデータ数が増えてくるので、両者の関係はうすくなります。
度数分布と標準偏差
では、原データの分布と標準偏差との関係はどうか。
ある計算実験を行ってみましょう。
122, 126, 123, 125, 123, 128, 123, 127, 125, 128
計算すると、
となります。
ここで、下限=m−σ、上限=m+σ
として、この幅をとります。
すると、
122.8から127.2の幅になります。
この幅の中には、
126, 123, 125, 123, 123, 127, 125
の7個のデータがあります。
つまり、±標準偏差の中に、約7割のデータが入っているのです。
データが正規分布をしているならば、±標準偏差の中に68.3%のデータ(約68%)が入っていることになります。
この68という数字は覚えておくとあとあと非常に便利です。
ついでに、データが正規分布をしているならば、±1.96×標準偏差の中に95%のデータが入っていることになります。
よく教科書ではこれを標準偏差の2倍と解説していますが、2ではなく1.96で覚えましょう。
1.96倍にするとちょうど95%になるからです。
関連リンク