Python・R・エクセルによるデータサイエンス | 統計解析講義

統計解析で質問の多い標準偏差と標準誤差【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計解析で質問の多い標準偏差と標準誤差【統計解析講義基礎】

統計解析で質問の多い標準偏差と標準誤差【統計解析講義基礎】


統計解析で質問の多い標準偏差と標準誤差【統計解析講義基礎】

 

統計解析の講義で最もよくある質問の一つが、標準偏差と標準誤差の違いは何か、という質問です。

 

標準偏差と標準誤差は一字違いですが、その意味するところは大分違います。

 

たまに、「データの数を増やすとばらつきが小さくなる、標準偏差が小さくなる」というのを耳にすることがありますが、これは間違いです。

 

標準偏差とはばらつきの指標です。ばらつきはあくまでもばらつきであり、データの数を増やしたところで小さくなるものではありません。

 

データの数を増やすと小さくなるのは標準誤差の方です。では、標準誤差とは何かについて考えてみましょう。

 

 

母集団から標本をとる

 

標準誤差を理解するためには、推測統計学の基本、すなわち母集団から標本をとる、という考え方を先ず理解することが必要不可欠です。

 

例えば日本人全体、1億3千万人の平均体温を知りたいとします。

 

これは、残念ながら私たちは知ることはできません。1億3千万人の体温を測定しデータを集めることは不可能だからです。

 

真の値は神様だけが知っています。この真の値を、

 

母平均 36.5度

 

母標準偏差  2.0度

 

としましょう。

 

次いで、日本人全体からランダムに100人の標本を抽出したとします。

 

ランダムに、というところが重要です。男性に偏ったり、高齢者に偏ったりしてはいけません。

 

この標本の平均値を測定したところ、標本平均が36.6度だったとします。

 

この標本は母集団の縮図です。

 

つまり、母集団が測定できないために、小集団である標本を測定することで、母平均や母標準偏差を推測します。

 

これが推測統計の基本的考え方です。

 

したがって、標本平均36.6度は、母平均36.5度と全く同じでなくとも、近い値である必要があります。

 

といいますか、標本抽出に偏りがないならば、近い値に必ずなります。

 

さて、この100人の標本抽出をたくさんの回数行ってみます。

 

実際にはこのようにたくさんの回数行うことはないのですが、ここは想像力を働かせてみましょう。

 

すると、以下の結果が得られます。

 

100人(標本A) 36.6度
100人(標本B) 36.4度
100人(標本C) 36.5度
100人(標本D) 36.3度
100人(標本E) 36.7度


 

このように、どれも36.5度に近い値にはなるのですが、どうしても母平均36.5度からは少しずれます。

 

また、標本間でも、値が少しずれます。

 

これは仕方がないことです。なぜならどれも無作為に母集団から抽出した標本ですが、全く同じ標本ではありませんから。

 

100人の背景はそれぞれ異なるので、平均が少し異なるのは仕方がないのです。

 

でもそれは少しです。大きく異なることはありません。

 

さて、この標本平均の分布を考えます。

 

つまり、上でいう36.6度、36.4度、36.5度といった標本平均の値の分布を考えます。

 

すると、これはなんと正規分布になります。必ず正規分布になります。

 

これを中心極限定理といいます(統計学の大定理と呼ばれています)。

 

ばらつきは少ないので、細くとがったつりがね型の分布になります。

 

この分布の平均は、母平均にかなり近い値になります。

 

そしてこの分布の標準偏差がいわゆる標準誤差です。

 

この場合は、母標準偏差が2、標本の大きさが100人ですから、100の平方根すなわち10で割った0.2が標準誤差となります。

 

標本平均の分布は、母集団の分布よりも1/10細いとがった分布になります。

 

標準誤差の意味

 

さて、この標準誤差の意味ですが、一言で言えば、母平均の推定精度をあらわします。

 

小さければ小さいほど、つまり先の標本平均のつりがね型分布が細ければ細いほど、推定の精度は高まります。

 

では推定の精度を高めるにはどうしたらよいでしょうか。標本を大きくすればよいのです。

 

今標本の大きさが100人なので、100の平方根つまり10で母標準偏差を割った細いつりがね型の分布ですが、これをもっと細くしようと思えば、例えば400人にする。

 

すると、400の平方根つまり20で割ることになるので、もっと細くなりますよね。

 

10000人であれば100で割ることになりますのでかなり細くなります。

 

10000人の標本平均は、母平均にほぼ等しいといってもいい位でしょう。

 

ただその分標本抽出が大変になりますので、そこはバランスをとります。

 

標準誤差の推定精度は

 

標準誤差は母平均の推定精度の指標といいましたが、では±標準誤差の範囲に母平均が含まれる確率はどの位でしょうか。

 

実は、約68%で、大したことはないのです。

 

つまり、残りの32%は母平均の推定をはずすということです。

 

標本を100個とり、各標本で標本平均を計算すると、68個の標本平均は±標準誤差の範囲に含まれますが、32個の標本平均は±標準誤差の範囲からはみ出してしまうということです。

 

これはよくよく考えると当たり前なことで、標準誤差は標本平均の分布においては標準偏差に相当するので、±標準偏差がデータをカバーする範囲すなわち68%に相当します。

 

いずれにしても、推定精度の指標が68%の推定精度というのはあまりにお粗末です。そこで、95%信頼区間という考え方が必要となります。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計解析で質問の多い標準偏差と標準誤差【統計解析講義基礎】

統計解析で質問の多い標準偏差と標準誤差【統計解析講義基礎】

統計解析で質問の多い標準偏差と標準誤差【統計解析講義基礎】