正規分布で探る!データの秘密と異常値の謎【ChatGPT統計解析】
正規分布では、データの分布は平均値と標準偏差によって定義される。平均値の周囲に標準偏差の特定の倍数を設定することで、データの特定の割合がその範囲内に含まれることが示される。具体的には、標準偏差の1倍以内には約68%、1.96倍以内には約95%、3倍以内には約99.7%のデータが含まれる。これらの範囲を超えるデータは異常値と見なされることが多く、統計分析や異常値の特定に利用される。正規分布はその頑健さから、少数のデータでさえも異常値を識別するのに役立つ。異常値を特定するためには、平均値から標準偏差の3倍以上離れたデータを探し、それを除外した後、再度平均値と標準偏差を計算する。この過程は異常値が見つからなくなるまで繰り返される。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 正規分布で探る!データの秘密と異常値の謎【ChatGPT統計解析】
正規分布における標準偏差の倍数と面積
したがって、ふつうの度数分布と同様に、それ自身の平均値も標準偏差も持っています。
平均値はもちろん分布の真ん中のところに決まっています。
しかし、標準偏差の大きさはいくらであっても構いません。
標準偏差が大きければ分布は左右に広がります。
それでも正規分布にかわりはありません。
つまり、標準偏差の大きさによって、分布の大きさや形は変化しますが、一方では変化しない性質があります。
どういう性質かというと、平均値の左右に標準偏差のある倍数をとると、その範囲内に正規分布のある面積の割合が含まれるのです。
1倍であれば68%・1.96倍であれば95%・3倍であれば99.7%
そうすると、その範囲の中に、分布の面積の68.3%がカバーされるのです。
また、その範囲の中に分布の面積の95%がカバーされるようにするためには、平均値から標準偏差のプラスマイナス1.96倍の幅をとればよいのです。
正規分布の性質はある程度他の分布まで広げて適用することができます。
実際に正規分布は、比較的寛大というか頑健というか、そういう性質をもっていることが認められています。
異常値の判定への利用
データ個数が少なくて異常値が発生したときは、いくら頑健な正規分布といってもカバーすることはできません。
異常値というのは、いつもどこでもつきまとう、厄介な現象です。
そこで、いっそのこと、異常値が正規分布から遠くはずれることに目をつけて、逆にそれを利用して異常値を除外しようという逆転の発想が出てきます。
判定のルールはきわめて簡単で、平均値から標準偏差の3倍以上隔たっているデータを異常値とします。
といいますのは、データの総個数の99.7%は、平均値±3×標準偏差 の範囲に入るからです。
同質のデータ集団なら、その範囲から飛び出すデータは、およそ300回に1回しか現れないという珍しさなのです。
異常値の判定ルール手順は以下の通りです。
@平均値から標準偏差の3倍以上隔たっているデータがあるか見る
Aあればそれを異常値とみなす。なければ終わり
Bそのデータを除いて、改めて平均値および標準偏差を計算し直す
C最初に戻ってまた異常値の検出を試みる
かつて統計学を習っていたころ、すこし変わった男とか、特殊な才能のある奴とかを、「あいつは3シグマ(σ)外だ」と別扱いしたり、敬遠したりしたのを思い出します。
若い時代は異質集団を意識しやすいのですが、年をとるとどうなるでしょう。
悟りきって、「人間死ぬときは皆同じさ」とおおらかになるのと、一方では、ますます孤高というか依怙地(いこじ)というか、要するに排他的になるのと、2つに分かれます。
時とともに、心のなかのシグマは広がったり狭くなったりします。
哲学者ジンメル(1858-1918)によると、年をとると人生がますます疑わしく捉えがたいものになり、やむなく独断を拠り所にせざるをえなくなるのだそうです。
あえて自ら構築した狭いシグマの砦に閉じこもる、それが年寄りの頑固さ、ということでしょうか。
わが国でも昔から「千三つ」という言葉があって、大ボラ吹きが1000回に3回くらいしか本当のことを言わないとか、商売で当たる可能性はせいぜいそんなものだとかいうふうに使われています。
3シグマから飛び出す0.3%としては以下のような例があります。
@地球から月への距離と太陽への距離: 38.4万km÷15000万km=0.26%
A地表の凹凸と地球の半径: 20km÷6400km=0.31% 一番高いエベレストが9kmで一番深いマリアナ海溝が11kmですからその落差は20kmとなります。
B絶対温度での体温1度の上昇率: 1度÷(273+36)度=0.32%
Cブラブラ歩きとマッハ(音速)の比較: 1m/s÷340m/s=0.29%
D1カ月の長さと定年までの長さ: 1月÷(12月×30)=0.28%
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
正規分布と異常値について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
正規分布っていうのは、データがどう分布してるかを示す形の一つで、よくベル型って言われる形をしてるんだ。この形の真ん中が「平均値」で、データの中心を示している。そして、「標準偏差」というのは、そのデータが平均からどれくらい離れているかを教えてくれるもので、この数値が大きいほどデータはバラバラ、小さいほどきっちり平均値の周りに集まっているってわけ。さて、この正規分布には面白い性質があって、平均値の周りから標準偏差をいくつかかけた範囲には、データの大半が収まっているんだ。具体的には、標準偏差1つ分の範囲には約68%、2つ分だと95%、3つ分だとほぼ全部の99.7%が収まっている。でも、この範囲外に出るデータもあって、それを「異常値」と呼ぶ。異常値は、なにか普通じゃないことが起こっているサインかもしれないんだ。だから、この異常値を見つけることは、データを分析する上でとっても大切なんだよ。
関連リンク