正規分布:統計の心臓、測定の魂【ChatGPT統計解析】
正規分布は統計学で非常に重要な役割を果たします。測定値の多くは、この分布に従います。正規分布は確率変数の横軸と確率密度の縦軸を持つグラフで表され、特徴的な山型の形をしています。この分布の中心は最もデータが集まりやすい点を示し、分布の形は測定値のばらつき具合を表します。連続型確率変数である測定値は、範囲設定によって確率密度を計算し、山型の分布を形成します。この確率密度関数は、特定の範囲内のデータの密度、つまり集まりやすさを数値化したものです。正規分布の理解は、測定値がどのように分布するかを把握し、統計的推測を行う上で不可欠です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
正規分布は測定値の本質
正規分布は統計学ではとても重要だといわれています。
本当にそうです。
正規分布を理解することは、測定値の本質を理解する上で大変重要です。
しかしこれをわかりやすく教えられる統計学の教師は皆無に近いと思います。
あなたも経験していると思いますが、多くの統計学の先生は正規分布をいきなり式から説明しようとします。
これでは統計学が嫌いになって当然です。
大前提として、世の中の多くの人は数式が嫌いなのです。
しかし、言葉だけで物事の多寡を説明するには限界があります。
一番いいのは、数字を巧みに使って説明することです。
私たちは数字に基づいて自分の行動を決めることが多くあります。
例えば体温を測ったら37度だったから、今日は体調が万全でない、無理しないでおこうとか。
しかし、この37度といういわゆる「測定値」は果たして正しいのでしょうか。
繰り返し測ってみれば分かりますが、測定値というのは、「ばらつく」のです。
面倒くさい話ですが、私自身が自分の体温を精度の良い熱電対で11回実施したところ、以下のような値になりました。
精度の良い熱電対ですら、このくらいばらつくのです。
36.46〜36.4836.478
36.48〜34.5036.48836.482
36.50〜36.5236.51936.50836.50136.51036.503
36.52〜36.5436.52136.530
36.54〜36.5636.554
ここで大事なのは、測定値というものはばらつくものの、ある特定の範囲にかたまりやすい性質をもっているということです。
上の例では、36.50〜36.52度の範囲にもっともデータが集まっています。
一般に測定値というのはこのような分布をするのです。
分布は山型で、真ん中が最大になります。
どこかで見た事ある形ではないでしょうか。
そう。これがまさに正規分布なのです。
体温に限った話ではありません。
あらゆる測定値は正規分布をします。
10円玉をたくさんかき集めて1枚1枚重さを測って並べてもこのような分布になります。
水道の蛇口からぽたりぽたりと垂れる水1滴1滴も、その重さをすべて測り図示すると正規分布になります。
特に理由はありません。
地球が丸いのと同じで、そういうものなのだというしかないのです。
正規分布の連続型確率変数
また上の体温の例に戻し、範囲の部分に着目しましょう。
36.46〜36.48
36.48〜34.50
36.50〜36.52
36.52〜36.54
36.54〜36.56
このように範囲設定していることには大変重要な意味があります。
これをもし、範囲設定ではなく定規を縦にしたように、スケールだけにしたらどうでしょうか。
35.0
35.5
36.0
36.5
37.0
37.5
ここで重要なことは、体温は連続変数であり、サイコロの1〜6のような離散変数ではないということです。
体温のような連続変数で確率的に値が得られる変数を連続型確率変数といいます。
実際の体温のデータが連続変数であるとは、つまりたとえば
36.5124356384627439364869752648104957628・・・・・・
という唯一無二の値であるということです。
連続というのは言い換えれば、全く同じ値というのは絶対に存在しないのです。
サイコロの場合は同じ目が何度か出現することはありますが、体温の場合、同じ値は二度と出現することはありません。
したがって、
35.0
35.5
36.0
36.5
37.0
37.5
のような連続スケールにしたら、
36.5124356384627439364869752648104957628・・・・・・
というたった1つの値はもう1回とるということは絶対にあり得ないので、すべて1なので、頻度1の平坦な分布になり、決して山型の正規分布にはならないのです。
したがって、山型の正規分布にするには、範囲設定が大変重要なのです。
そして上の例では、36.50〜36.52の範囲に最もデータが集まっています。
同じ広さのところにたくさん集まっていることを我々は「密度が高い」という言い方をします。
今まで理解不能だった確率密度、確率密度関数という言葉の意味はここから来ています。
正規分布の確率密度関数
上の例を統計解析用語で書き直すとこのような表現となります。
「体温を連続型の確率変数とする確率密度関数では、36.50〜36.52の範囲の確率密度が最大となる」
連続型確率変数を扱う場合には、確率がゼロにならないように確率変数に一定の幅をもたせ、その幅のなかにデータが入るようにします。
そのデータの量の多寡は確率密度という表現でなされます。
ところが、大学で習う正規分布のつりがね型の図は滑らかです。
決してギザギザの幅をもった分布ではありません。
連続型確率変数は幅をもたせなければ、山型にはならないはずです。
滑らかでなく、もっとギザギザの階段状の図になるべきではないか、という疑問が湧くはずです。
そこでトリッキーな話ですが、一旦Δxという幅をもたせ、ギザギザの山型の分布にしてから、このΔxをゼロにし滑らかにするという操作をするのです(この操作がいわゆる微分です)。
結果として、確率密度関数の形はギザギザの階段ではなく、滑らかな山型となります。
ここまで説明して、改めて統計解析の教科書の正規分布の章を読んでみたら、今ならばよく理解できるはずです。
そして、この考え方は測定値というものの本質部分なので、しっかりと理解しましょう。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
正規分布について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
正規分布は、ベルの形をした分布で、データの世界でよく見る形です。例えば、森にいるサルたちの体重を全部調べたら、ほとんどのサルは平均的な体重で、とても重いサルや軽いサルは少なくなります。このときの体重の分布が、まさに正規分布の形をしています。真ん中が一番高く、左右対称になっていて、真ん中に近いほどサルが多く、遠くなるほどサルが少なくなります。この分布はデータが平均値の周りに集まっていることを示しており、平均値から離れるほど、そのデータは珍しいということを表しています。正規分布はデータを理解するのにとても役立ちますよ!
正規分布とは
正規分布(せいきぶんぷ、英: normal distribution)またはガウス分布(英: Gaussian distribution)は、確率論や統計学で用いられる連続的な変数に関する確率分布の一つです。
データが平均値の付近に集積するような分布を表します。
中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従います。
このことによって正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられています。
たとえば、実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されています。
正規分布の確率密度関数のフーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数学・物理の理論の体系において、正規分布は基本的な役割を果たしています。