推測統計・標本で母集団を統計的推測|標準誤差・95%信頼区間【統計学・統計解析講義基礎】
推測統計とは、標本で母集団を推測する方法。標準誤差や95%信頼区間は統計的推測に基づき計算
推測統計:標本で母集団を統計的推測
統計解析で、記述統計と並んで重要なのが推測統計です。
推測統計すなわち統計的推測の根底にあるのは、母集団と標本という考え方です。
母集団は巨大すぎて測ることができません。例えば日本人1億3千万人の平均血糖値を測定しようと思うと、物凄い労力と時間とお金がかかります。
そこで、母集団から標本(サンプル)を抽出し、その標本から母集団の性状を推測しよう、というのが推測統計すなわち統計的推測の根幹の考え方です。
これからお話する標準誤差や95%信頼区間も推測統計(統計的推測)に基づいて計算されます。
ではどのようにして推測するか、そこでは、確率分布の考え方が重要になります。
例えば母平均を推定したいとします。
その場合、母集団から標本を例えば100個とか抽出します。
そしてその標本内の100個のデータを平均すると、標本平均が求まります。
この標本平均は、母平均にかなり近い値になることが知られています。
ただし、標本を母集団から偏りなくランダムにとることが条件です。
標本平均の値から、母平均の値を推測する、まさに推測統計です。
では、この母平均の推定精度はどの位でしょう。
標本平均は母平均のよい推定にはなりますが、厳密には同じになりません。
少しブレます。
では同じ母集団から別の標本をとり再び標本平均を計算します。
この値も、一回目に得た標本平均の値に近くはなりますが、全く同じにはなりません。
少しブレます。
標本自体が違うので、少しくらいブレたとしてもおかしくありません。
しかしそのブレは小さいです。
この小さいブレの大きさが標準誤差と呼ばれるものです。
このブレは、標本サイズ、つまり標本の中のデータの数が小さい(数十個とか)ですと大きくなりますが、
標本サイズが大きい(数百とか数千とか)と小さくなります。
標本サイズが大きければ大きいほどブレは小さくなります。
実験で、データは多くとった方がいいとよく言われる理由はここにあります。
標準誤差は、母標準偏差を標本サイズの平方根で割ったものです。
標本サイズが大きいほど、標準誤差は小さくなります。
このブレの大きさがすなわち母平均の推定精度になります。
さて、仮にこの同じ母集団からの標本抽出を何度も行うという、ありえない光景を想像しましょう。そして、各標本から標本平均を計算し、この標本平均を多数集めます。
すると、この多数の標本平均の分布は、必ず正規分布になります。
これを中心極限定理といいます。統計学の大定理と呼ばれています。
この必ずなる正規分布の標準偏差が、すなわち標準誤差です。
標準誤差と95%信頼区間
標本サイズが大きいほど標準誤差は小さくなるので、この正規分布は細いつりがね型になります。
その母平均を含む範囲は、この細い正規分布の標準偏差にあたりますから、±標準誤差で68%です。
32%は母平均をはずしてしまいます。
これを推定精度と呼ぶには、ちょっと頼りないですね。
そこで、±1.96×標準誤差と、範囲を1.96倍広げます。
こうすると、母平均をちょうど95%カバーすることになります。
この±1.96×標準誤差が、すなわち±95%信頼区間 です。
推測統計では、標準誤差より圧倒的に95%信頼区間の方がよく使われます。
その理由は、95%という推定精度の良さにあります。
100回標本抽出し、95回は母平均を含むので、信頼性が高いですね。
ただ、5回ははずす可能性があります。完璧ではありません。
推測統計とは何ですか?
推測統計を使うことで,小さなグループ(しばしば標本(サンプル)と呼ばれる)での結果から,より大きなグループ(しばしば母集団と呼ばれる)へと推測を行うことができます。
推測統計は,多くの場合記述統計の拡張ですが,常にそうだというわけではありません。
知りたい問題によっては,(記述統計を用いて)得点の平均値を知ることで十分なこともあります。
たとえば,ある特定のグループの平均値が他のグループの平均値と異なるかどうかを知りたいのであれば,必ずしも推測統計を用いる必要はありません。
推測統計がどのように用いられるのかの1つの例として、2つの小学生グループが受けた読解スキルのテストについて,グループ間の差を検討することを考えてみましょう。
一方のグループが特別な指導を受け,他方のグループは受けていないとします。
この2つのグループの標本を比較して,その結果がこれらの標本が選ばれた母集団に一般化されます。
小学生の母集団全体にテストをしてみたらどうでしょうか。
ほとんどの場合,母集団は大きすぎて,時間もお金もかかりすぎます。
科学者はこの200年にわたって統計学について大いに学び,非常に小規模な観測値の集合である標本が,それよりはるかに大きな母集団をどれくらいよく代表しているかを正確に評価し,その情報を母集団について判断するために使うことができるようになりました。
ある標本がその母集団をどれくらいよく代表しているかが,推測統計を使う上で鍵となるということは,想像できるでしょう。
代表性は,ある研究の結果が標本から母集団へ一般化できるかどうかを決めるのに役立ちます。
推測の手続きの結果の正確さは,その標本が母集団からどれくらいよく選ばれたかに大きく依存します。
つまり、その標本が母集団をよく代表するほど,その標本から母集団への推測が信頼でき,その結果が母集団へ(そして,他の類似した母集団へも)一般化できる可能性が高くなります。
平均値のt検定。分散分析,そして回帰分析などの推測統計は,ほとんどの統計学の入門コースで,基礎の一部となっていて,これらはとても広く使われています。
要するに,記述統計はデータの特徴を記述することができる一方で,推測統計はそれらの観測結果を,より大きなグループに適用することができるのです。