正規分布における標準偏差の倍数と面積|1倍であれば68%・1.96倍であれば95%・3倍であれば99.7%【統計学・統計解析講義基礎】
平均値の左右に標準偏差のある倍数をとると、その範囲内に正規分布のある面積の割合が含まれる。1倍であれば68%、1.96倍であれば95%、3倍であれば99.7%平均値から標準偏差の3倍以上隔たっているデータを異常値とする
目次 正規分布における標準偏差の倍数と面積|1倍であれば68%・1.96倍であれば95%・3倍であれば99.7%【統計学・統計解析講義基礎】
正規分布における標準偏差の倍数と面積
したがって、ふつうの度数分布と同様に、それ自身の平均値も標準偏差も持っています。
平均値はもちろん分布の真ん中のところに決まっています。
しかし、標準偏差の大きさはいくらであっても構いません。
標準偏差が大きければ分布は左右に広がります。
それでも正規分布にかわりはありません。
つまり、標準偏差の大きさによって、分布の大きさや形は変化しますが、一方では変化しない性質があります。
どういう性質かというと、平均値の左右に標準偏差のある倍数をとると、その範囲内に正規分布のある面積の割合が含まれるのです。
1倍であれば68%・1.96倍であれば95%・3倍であれば99.7%
そうすると、その範囲の中に、分布の面積の68.3%がカバーされるのです。
また、その範囲の中に分布の面積の95%がカバーされるようにするためには、平均値から標準偏差のプラスマイナス1.96倍の幅をとればよいのです。
正規分布の性質はある程度他の分布まで広げて適用することができます。
実際に正規分布は、比較的寛大というか頑健というか、そういう性質をもっていることが認められています。
異常値の判定への利用
データ個数が少なくて異常値が発生したときは、いくら頑健な正規分布といってもカバーすることはできません。
異常値というのは、いつもどこでもつきまとう、厄介な現象です。
そこで、いっそのこと、異常値が正規分布から遠くはずれることに目をつけて、逆にそれを利用して異常値を除外しようという逆転の発想が出てきます。
判定のルールはきわめて簡単で、平均値から標準偏差の3倍以上隔たっているデータを異常値とします。
といいますのは、データの総個数の99.7%は、平均値±3×標準偏差 の範囲に入るからです。
同質のデータ集団なら、その範囲から飛び出すデータは、およそ300回に1回しか現れないという珍しさなのです。
異常値の判定ルール手順は以下の通りです。
@平均値から標準偏差の3倍以上隔たっているデータがあるか見る
Aあればそれを異常値とみなす。なければ終わり
Bそのデータを除いて、改めて平均値および標準偏差を計算し直す
C最初に戻ってまた異常値の検出を試みる
かつて統計学を習っていたころ、すこし変わった男とか、特殊な才能のある奴とかを、「あいつは3シグマ(σ)外だ」と別扱いしたり、敬遠したりしたのを思い出します。
若い時代は異質集団を意識しやすいのですが、年をとるとどうなるでしょう。
悟りきって、「人間死ぬときは皆同じさ」とおおらかになるのと、一方では、ますます孤高というか依怙地(いこじ)というか、要するに排他的になるのと、2つに分かれます。
時とともに、心のなかのシグマは広がったり狭くなったりします。
哲学者ジンメル(1858-1918)によると、年をとると人生がますます疑わしく捉えがたいものになり、やむなく独断を拠り所にせざるをえなくなるのだそうです。
あえて自ら構築した狭いシグマの砦に閉じこもる、それが年寄りの頑固さ、ということでしょうか。
わが国でも昔から「千三つ」という言葉があって、大ボラ吹きが1000回に3回くらいしか本当のことを言わないとか、商売で当たる可能性はせいぜいそんなものだとかいうふうに使われています。
3シグマから飛び出す0.3%としては以下のような例があります。
@地球から月への距離と太陽への距離: 38.4万km÷15000万km=0.26%
A地表の凹凸と地球の半径: 20km÷6400km=0.31% 一番高いエベレストが9kmで一番深いマリアナ海溝が11kmですからその落差は20kmとなります。
B絶対温度での体温1度の上昇率: 1度÷(273+36)度=0.32%
Cブラブラ歩きとマッハ(音速)の比較: 1m/s÷340m/s=0.29%
D1カ月の長さと定年までの長さ: 1月÷(12月×30)=0.28%
関連リンク