Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学最重要の確率分布:正規分布【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学最重要の確率分布:正規分布【統計解析講義基礎】

統計学最重要の確率分布:正規分布【統計解析講義基礎】

統計学最重要の確率分布:正規分布【統計解析講義基礎】

目次  統計学最重要の確率分布:正規分布【統計解析講義基礎】


正規分布

正規分布は統計学ではとても重要だといわれています。

 

本当にそうです。

 

正規分布を理解することは、測定値の本質を理解する上で大変重要です。

 

しかしこれをわかりやすく教えられる統計学の教師は皆無に近いと思います。

 

あなたも経験していると思いますが、多くの統計学の先生は正規分布をいきなり式から説明しようとします。

 

これでは統計学が嫌いになって当然です。

 

大前提として、世の中の多くの人は数式が嫌いなのです。

 

しかし、言葉だけで物事の多寡を説明するには限界があります。

 

一番いいのは、数字を巧みに使って説明することです。

 

私たちは数字に基づいて自分の行動を決めることが多くあります。

 

例えば体温を測ったら37度だったから、今日は体調が万全でない、無理しないでおこうとか。

 

しかし、この37度といういわゆる「測定値」は果たして正しいのでしょうか。

 

繰り返し測ってみれば分かりますが、測定値というのは、「ばらつく」のです。

 

面倒くさい話ですが、私自身が自分の体温を精度の良い熱電対で11回実施したところ、以下のような値になりました。精度の良い熱電対ですら、このくらいばらつくのです。

 

36.46〜36.48 36.478
36.48〜34.50 36.488 36.482
36.50〜36.52 36.519 36.508 36.501 36.510 36.503
36.52〜36.54 36.521 36.530
36.54〜36.56 36.554

 

ここで大事なのは、測定値というものはばらつくものの、ある特定の範囲にかたまりやすい性質をもっているということです。

 

上の例では、36.50〜36.52度の範囲にもっともデータが集まっています。一般に測定値というのはこのような分布をするのです。

 

さて、これを90度左回転してみましょう。

 

すると、山型の分布になり、真ん中が最大になります。どっかで見た事ある形ではないでしょうか。

 

そう。これがまさに正規分布なのです。

 

体温に限った話ではありません。

 

10円玉をたくさんかき集めて1枚1枚重さを測って並べてもこのような分布になります。

 

水道の蛇口からぽたりぽたりと垂れる水1滴1滴も、その重さをすべて測り図示すると正規分布になります。

 

特に理由はありません。

 

地球が丸いのと同じで、そういうものなのだとみなすしかないのです。

 

連続型確率変数

また上の体温の例に戻し、範囲の部分に着目しましょう。

 

36.46〜36.48
36.48〜34.50
36.50〜36.52
36.52〜36.54
36.54〜36.56

 

このように範囲設定していることには大変重要な意味があります。

 

これをもし、範囲設定ではなく定規を縦にしたように、スケールだけにしたらどうでしょうか。

 

35.0
35.5
36.0
36.5
37.0
37.5

 

ここで重要なことは、体温は連続変数であり、サイコロの1?6のような離散変数ではないということです。

 

実際の体温のデータが連続変数であるとは、つまりたとえば

 

36.5124356384627439364869752648104957628・・・・・・

 

という唯一無二の値であるということです。

 

連続というのは言い換えれば、全く同じ値というのは絶対に存在しないのです。

 

サイコロの場合は同じ目が何度か出現することはありますが、体温の場合、同じ値は二度と出現することはありません。
したがって、

 

35.0
35.5
36.0
36.5
37.0
37.5

 

のような連続スケールにしたら、

 

36.5124356384627439364869752648104957628・・・・・・

 

というたった1つの値はもう1回とるということは絶対にあり得ないので、すべて1なので、頻度1の平坦な分布になり、決して山型の正規分布にはならないのです。

 

したがって、山型の正規分布にするには、範囲設定が大変重要なのです。

 

そして上の例では、36.50〜36.52の範囲に最もデータが集まっています。

 

同じ広さのところにたくさん集まっていることを我々は「密度が高い」という言い方をします。

 

今まで理解不能だった確率密度確率密度関数という言葉の意味はここから来ています。

 

確率密度関数

上の例を統計解析用語で書き直すとこのような表現となります。

 

「体温を連続型の確率変数とする確率密度関数では、36.50〜36.52の範囲の確率密度が最大となる」

 

連続型確率変数を扱う場合には、確率がゼロにならないように確率変数に一定の幅をもたせ、その幅のなかにデータが入るようにします。そのデータの量の多寡は確率密度という表現でなされます。

 

ところが、大学で習う正規分布のつりがね型の図は滑らかです。

 

決してギザギザの幅をもった分布ではありません。

 

連続型確率変数は幅をもたせなければ、山型にはならないはずです。

 

滑らかでなく、もっとギザギザの階段状の図になるべきではないか、という疑問が湧くはずです。

 

そこでトリッキーな話ですが、一旦Δxという幅をもたせ、ギザギザの山型の分布にしてから、このΔxをゼロにし滑らかにするという操作をするのです(この操作がいわゆる微分です)。

 

結果として、確率密度関数の形はギザギザの階段ではなく、滑らかな山型となります。

 

ここまで説明して、改めて統計解析の教科書の正規分布の章を読んでみたら、今ならばよく理解できるはずです。

 

そして、この考え方は測定値というものの本質部分なので、しっかりと理解しましょう。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学最重要の確率分布:正規分布【統計解析講義基礎】

統計学最重要の確率分布:正規分布【統計解析講義基礎】

統計学最重要の確率分布:正規分布【統計解析講義基礎】