標準誤差で解明!推定精度の秘密【ChatGPT統計解析】
標準誤差とは、標本平均の分布の標準偏差であり、母平均の推定精度を示す指標です。母集団から多数の標本を抽出すると、標本平均は正規分布に従います。標準誤差は標本サイズが大きくなるほど小さくなり、推定精度は向上します。標準偏差とは異なり、データの数を増やすことで小さくなるのは標準誤差の方です。中心極限定理により、標本平均の分布は正規分布に従い、その標準偏差が標準誤差になります。標準誤差の大きさは、標本抽出の方法や標本のサイズに依存し、±標準誤差の範囲に母平均が含まれる確率は約68%です。より高い推定精度を求める場合は、95%信頼区間を用いることが一般的です。この区間は標準誤差の約1.96倍に相当し、推定精度を95%に高めることができます。標準誤差は、統計的推測を行う上で重要な概念であり、データ分析における精度の理解に不可欠です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計解析の講義で最もよくある質問の一つが、標準偏差と標準誤差の違いは何か、という質問です。
標準偏差と標準誤差は一字違いですが、その意味するところは大分違います。
たまに、「データの数を増やすとばらつきが小さくなる、標準偏差が小さくなる」というのを耳にすることがありますが、これは間違いです。
標準偏差とはばらつきの指標です。
ばらつきはあくまでもばらつきであり、データの数を増やしたところで小さくなるものではありません。
データの数を増やすと小さくなるのは標準誤差の方です。
では、標準誤差とは何かについて考えてみましょう。
母集団から標本をたくさんとる
標準誤差を理解するためには、推測統計の基本、すなわち母集団から標本をとる、という考え方を先ず理解することが必要不可欠です。
例えば日本人全体、1億3千万人の平均体温を知りたいとします。
これは、残念ながら私たちは知ることはできません。
1億3千万人の体温を測定しデータを集めることは不可能だからです。
真の値は神様だけが知っています。
この真の値を、
母平均 36.5度
母標準偏差 2.0度
としましょう。
次いで、日本人全体からランダムに100人の標本を抽出したとします。
ランダムに、というところが重要です。男性に偏ったり、高齢者に偏ったりしてはいけません。
この標本の平均値を測定したところ、標本平均が36.6度だったとします。
この標本は母集団の縮図です。
つまり、母集団が測定できないために、小集団である標本を測定することで、母平均や母標準偏差を推測します。
これが推測統計の基本的考え方です。
したがって、標本平均36.6度は、母平均36.5度と全く同じでなくとも、近い値である必要があります。
といいますか、標本抽出に偏りがないならば、近い値に必ずなります。
さて、この100人の標本抽出をたくさんの回数行ってみます。
実際にはこのようにたくさんの回数行うことはないのですが、ここは想像力を働かせてみましょう。
すると、以下の結果が得られます。
100人(標本A) 36.6度
100人(標本B) 36.4度
100人(標本C) 36.5度
100人(標本D) 36.3度
100人(標本E) 36.7度
・
・
・
このように、どれも36.5度に近い値にはなるのですが、どうしても母平均36.5度からは少しずれます。
また、標本間でも、値が少しずれます。
これは仕方がないことです。なぜならどれも無作為に母集団から抽出した標本ですが、全く同じ標本ではありませんから。
100人の背景はそれぞれ異なるので、平均が少し異なるのは仕方がないのです。
でもそれは少しです。大きく異なることはありません。
さて、この標本平均の分布を考えます。
つまり、上でいう36.6度、36.4度、36.5度といった標本平均の値の分布を考えます。
すると、これはなんと正規分布になります。
必ず正規分布になります。
これを中心極限定理といいます(統計学の大定理と呼ばれています)。
ばらつきは少ないので、細くとがったつりがね型の分布になります。
この分布の平均は、母平均にかなり近い値になります。
そしてこの分布の標準偏差がいわゆる標準誤差です。
この場合は、母標準偏差が2、標本の大きさが100人ですから、100の平方根すなわち10で割った0.2が標準誤差となります。
標本平均の分布は、母集団の分布よりも1/10細いとがった分布になります。
標準誤差は母平均の推定精度
さて、この標準誤差の意味ですが、一言で言えば、母平均の推定精度をあらわします。
小さければ小さいほど、つまり先の標本平均のつりがね型分布が細ければ細いほど、推定の精度は高まります。
では推定の精度を高めるにはどうしたらよいでしょうか。標本を大きくすればよいのです。
今標本の大きさが100人なので、100の平方根つまり10で母標準偏差を割った細いつりがね型の分布ですが、これをもっと細くしようと思えば、例えば400人にする。
すると、400の平方根つまり20で割ることになるので、もっと細くなりますよね。
10000人であれば100で割ることになりますのでかなり細くなります。
10000人の標本平均は、母平均にほぼ等しいといってもいい位でしょう。
ただその分標本抽出が大変になりますので、そこはバランスをとります。
標準誤差の推定精度は68%
標準誤差は母平均の推定精度の指標といいましたが、では±標準誤差の範囲に母平均が含まれる確率はどの位でしょうか。
実は、約68%で、大したことはないのです。
つまり、残りの32%は母平均の推定をはずすということです。
標本を100個とり、各標本で標本平均を計算すると、68個の標本平均は±標準誤差の範囲に含まれますが、32個の標本平均は±標準誤差の範囲からはみ出してしまうということです。
これはよくよく考えると当たり前なことで、標準誤差は標本平均の分布においては標準偏差に相当するので、±標準偏差がデータをカバーする範囲すなわち68%に相当します。
いずれにしても、標準誤差が68%の推定精度というのはあまりにお粗末です。
そこで、95%信頼区間という考え方が必要となります。
標準誤差を1.96倍したものが95%信頼区間です。
標準誤差が68%の推定精度に対し、95%信頼区間は95%の推定精度です。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
標準誤差について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
標準誤差っていうのは、森のサルたちの平均体重を調べたいときに、どれくらい正確に測れているかを示す数値です。サルの一群から数匹を選んで体重を測ると、その平均値は毎回ちょっとずつ違いますよね。標準誤差は、その平均値のズレの大きさを教えてくれるんです。例えば、100匹のサルから10匹ずつ何回も体重を測って平均を出すと、その平均値はいろいろ変わります。これらの平均値のばらつきが小さいほど、私たちの測った平均体重は「本当の平均体重」に近いと言えます。標準誤差が小さいほど、より信頼性の高い平均値を得られている証拠です。つまり、標準誤差は、サンプルから得られた平均値が、どれだけ正確か(または信頼できるか)を示してくれる指標なんです。