t分布とギネスの不思議な関係:統計学の逸話【ChatGPT統計解析】
t-統計量は標準正規分布と似ているが、微妙に異なり自由度n-1のt分布(スチューデントのt分布)に従う。これは、母集団の分散が不明な場合、不偏分散を用いて標本平均の分布を推定する方法である。t分布はウィリアム・ゴセットが発見し、「スチューデント」というペンネームで公表した。ゴセットはギネスビール社のエンジニアで、醸造業における統計学の重要性を示した。t分布は左右対称で、t検定のp値計算に用いられる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
スチューデントのt-分布
母集団分布が母平均μ、母分散σ2の正規分布であり、そこからサイズnの標本をとりだしたときの標本平均がXであるとき
Z=(X−μ)/√(σ2/n)
とおくと、Zは標準正規分布N(0, 1)にしたがいます。
では、母分散σ2が不明であるとしましょう。
このときは、μとσ2の2つの未知量がありますから、これでは母平均μの区間推定ができません。
そこで、母分散σ2を、標本から計算される不偏分散s2で置き換えた、
t=(X−μ)/√(s2/n)
というものを考えます。
このtをt-統計量といいます。
不偏分散の不偏とは、簡単にいえば「ひいきをしない」ということです。
たとえば、野球の試合を考えてみましょう。
審判の間違いはもちろん少ないほうがいいんですが、審判も人間だから間違えることがあるのは仕方ありません。
しかし、その間違いが、片方のチームが有利になるような間違いばかりであっては困ります。つまり、審判は何よりもまず「不偏」でなければならないのです。
Zは標準正規分布にしたがいますが、tすなわちt統計量はどのような分布にしたがうでしょうか。
このt-統計量がしたがう確率分布は、標準正規分布に似てはいますが、微妙に違っています。
それは自由度n−1のt-分布(スチューデントのt-分布)という確率分布で、
これをt(n−1)と書きます。
t-分布の確率密度関数は標準正規分布とよく似ており、t=0を中心とした左右対称の形になっています。
t-検定でのp値はt-分布に基づき計算されます。
ギネスビール社のエンジニア・ゴセットの偉業
このt-分布を発見した(ここが重要ですが、考案ではなく発見です)は、英国の統計学者ウィリアム・ゴセットです。
ゴセットはギネスビール社のエンジニアで、会社との契約で本名では論文が出せなかったため、ペンネームの「スチューデント」で発表したのだそうです。
酒造りなどの醸造業は、昔から統計学が活躍している分野です。
それは、酒などができる醗酵という現象は、技術者が自分の手で直接行っているものではなく、無数の微生物の作用や分子の化学反応によって生じるものだからです。
技術者は、微生物や分子の作用を、温度や時間などの全体的な量を変化させて調節しているだけです。
どう調節すれば、無数の微生物や分子の作用が「全体として」望ましい方向に進むかを知るには、統計学の手法が必要です。
関連リンク