不偏分散とt分布: 精密な推測の道具【ChatGPT統計解析】
標本の不偏分散は、分母をn-1として計算され、母分散をより正確に推定する方法です。この不偏性は、標本から母集団の分散を推測する際に重要な役割を果たします。一方、標準正規分布と比較した際、標本サイズが小さい場合の分布はt-分布と呼ばれるものに従います。t-分布は、標準正規分布より裾野が広く、これにより小さい標本サイズからの推測においてより適切な推定が可能になります。標本サイズが大きくなるにつれて、t-分布は標準正規分布に近づきます。この知識は、統計的推測を行う上で基礎的かつ重要なものであり、精度の高いデータ分析を可能にします。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
不偏分散(n-1で割った分散)は母分散の良い推定
標本の平均は、母平均の良い推定になります。
これを不偏性といいます。
標本をランダムに抽出し、抽出する標本のサイズ(標本の中のデータの数)が大きいほど、より良い推定になります。
さて、それでは標本の分散は、母分散の良い推定になるでしょうか。
実は分散の不偏性が成立するためには、あるトリッキーな作業が必要です。
それは、標本の数から1を引いて計算するということです。
つまり通常分散の計算は偏差平方和をnで割りますが、nではなく、n−1つまり自由度で割ります。
これを不偏分散といいます。
母分散を推定する際には、不偏分散のほうが良い推定になるのです。
母標準偏差の推定も、不偏分散の平方根が良い推定になります。
なぜ1を引くのかというのはとても難しい話なので、覚えるしかありません。
昔アイルランドの首都ダブリンにあるギネスビール工場で品質管理の仕事をしていたゴセットという技師がいました。
ビールの麦芽汁を発酵させる酵母の数を測定することはビールの品質を安定させるために重要です。
しかし、測定の際に容器の中の酵母液全体を調べるわけにはいけません。
そこで、ゴセットは容器の中から数滴の小標本をとり出して、酵母の数を数えるということを何度も繰り返し行いました。
そしてその数の分布を調べたところ、標準正規分布(平均が0、分散が1の正規分布)から少しずれた分布であることを発見しました。
標準正規分布とt-分布
標準正規分布より少し裾野が広い分布(t-分布と呼びます)で、この分布の方が推定に適していることを見出したのです。
母集団の分布(標準正規分布)と、標本から得られた分布(t-分布)は、少しだけ違うのです。
この「少しだけ」の違いというのが、先に述べた母分散の式の分母nをn−1とすることにより解決されます。
Nが十分大きければ、t-分布はほとんど標準正規分布と同じになります。
標本の平均は母平均の良い推定値ですが、標本の分散の場合は、分母から1を引くと、母分散の良い推定になる、ということです。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
不偏分散について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
不偏分散っていうのは、森の中のサルたちがどれだけバラバラにいるかを正しく表す数値のことです。例えば、ある森にサルがいて、その体重がみんなバラバラだとします。この体重のばらつき具合を正確に知りたいときに使います。簡単に言うと、不偏分散は標本(サルの一部)から母集団(森のすべてのサル)のばらつきを推測するためのものです。ただ平均からどれだけ離れているかを計算するだけでは、ちょっと正確さが足りないことがあるんです。だから、ちょっと計算方法を変えて、より母集団のばらつきに近づけるようにした数値が「不偏分散」です。これを使えば、サンプルだけで森のサルたちのばらつきをもっと正確に知ることができるんですよ。