標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
標準誤差とは、標本平均の分布の標準偏差であり、母平均の推定精度を示す指標です。母集団から多数の標本を抽出すると、標本平均は正規分布に従います。標準誤差は標本サイズが大きくなるほど小さくなり、推定精度は向上します。標準偏差とは異なり、データの数を増やすことで小さくなるのは標準誤差の方です。中心極限定理により、標本平均の分布は正規分布に従い、その標準偏差が標準誤差になります。標準誤差の大きさは、標本抽出の方法や標本のサイズに依存し、±標準誤差の範囲に母平均が含まれる確率は約68%です。より高い推定精度を求める場合は、95%信頼区間を用いることが一般的です。この区間は標準誤差の約1.96倍に相当し、推定精度を95%に高めることができます。標準誤差は、統計的推測を行う上で重要な概念であり、データ分析における精度の理解に不可欠です。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計解析の講義で最もよくある質問の一つが、標準偏差と標準誤差の違いは何か、という質問です。

標準偏差と標準誤差は一字違いですが、その意味するところは大分違います。

たまに、「データの数を増やすとばらつきが小さくなる、標準偏差が小さくなる」というのを耳にすることがありますが、これは間違いです。

標準偏差とはばらつきの指標です。

ばらつきはあくまでもばらつきであり、データの数を増やしたところで小さくなるものではありません。

データの数を増やすと小さくなるのは標準誤差の方です。

では、標準誤差とは何かについて考えてみましょう。

目次標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

母集団から標本をたくさんとる

標準誤差は母平均の推定精度

標準誤差の推定精度は68%

ChatGPTに聞いてみた

母集団から標本をたくさんとる

標準誤差を理解するためには、推測統計の基本、すなわち母集団から標本をとる、という考え方を先ず理解することが必要不可欠です。

例えば日本人全体、1億3千万人の平均体温を知りたいとします。

これは、残念ながら私たちは知ることはできません。

1億3千万人の体温を測定しデータを集めることは不可能だからです。

真の値は神様だけが知っています。

この真の値を、

母平均　36.5度

母標準偏差　　2.0度

としましょう。

次いで、日本人全体からランダムに100人の標本を抽出したとします。

ランダムに、というところが重要です。男性に偏ったり、高齢者に偏ったりしてはいけません。

この標本の平均値を測定したところ、標本平均が36.6度だったとします。

この標本は母集団の縮図です。

つまり、母集団が測定できないために、小集団である標本を測定することで、母平均や母標準偏差を推測します。

これが推測統計の基本的考え方です。

したがって、標本平均36.6度は、母平均36.5度と全く同じでなくとも、近い値である必要があります。

といいますか、標本抽出に偏りがないならば、近い値に必ずなります。

さて、この100人の標本抽出をたくさんの回数行ってみます。

実際にはこのようにたくさんの回数行うことはないのですが、ここは想像力を働かせてみましょう。

すると、以下の結果が得られます。

100人（標本A）　36.6度
100人（標本B）　36.4度
100人（標本C）　36.5度
100人（標本D）　36.3度
100人（標本E）　36.7度
・
・
・
このように、どれも36.5度に近い値にはなるのですが、どうしても母平均36.5度からは少しずれます。

また、標本間でも、値が少しずれます。

これは仕方がないことです。なぜならどれも無作為に母集団から抽出した標本ですが、全く同じ標本ではありませんから。

100人の背景はそれぞれ異なるので、平均が少し異なるのは仕方がないのです。

でもそれは少しです。大きく異なることはありません。

さて、この標本平均の分布を考えます。

つまり、上でいう36.6度、36.4度、36.5度といった標本平均の値の分布を考えます。

すると、これはなんと正規分布になります。

必ず正規分布になります。

これを中心極限定理といいます（統計学の大定理と呼ばれています）。

ばらつきは少ないので、細くとがったつりがね型の分布になります。

この分布の平均は、母平均にかなり近い値になります。

そしてこの分布の標準偏差がいわゆる標準誤差です。

この場合は、母標準偏差が2、標本の大きさが100人ですから、100の平方根すなわち10で割った0.2が標準誤差となります。

標本平均の分布は、母集団の分布よりも1/10細いとがった分布になります。

標準誤差は母平均の推定精度

さて、この標準誤差の意味ですが、一言で言えば、母平均の推定精度をあらわします。

小さければ小さいほど、つまり先の標本平均のつりがね型分布が細ければ細いほど、推定の精度は高まります。

では推定の精度を高めるにはどうしたらよいでしょうか。標本を大きくすればよいのです。

今標本の大きさが100人なので、100の平方根つまり10で母標準偏差を割った細いつりがね型の分布ですが、これをもっと細くしようと思えば、例えば400人にする。

すると、400の平方根つまり20で割ることになるので、もっと細くなりますよね。

10000人であれば100で割ることになりますのでかなり細くなります。

10000人の標本平均は、母平均にほぼ等しいといってもいい位でしょう。

ただその分標本抽出が大変になりますので、そこはバランスをとります。

標準誤差の推定精度は68%

標準誤差は母平均の推定精度の指標といいましたが、では±標準誤差の範囲に母平均が含まれる確率はどの位でしょうか。

実は、約68%で、大したことはないのです。

つまり、残りの32%は母平均の推定をはずすということです。

標本を100個とり、各標本で標本平均を計算すると、68個の標本平均は±標準誤差の範囲に含まれますが、32個の標本平均は±標準誤差の範囲からはみ出してしまうということです。

これはよくよく考えると当たり前なことで、標準誤差は標本平均の分布においては標準偏差に相当するので、±標準偏差がデータをカバーする範囲すなわち68%に相当します。

いずれにしても、標準誤差が68%の推定精度というのはあまりにお粗末です。

そこで、95%信頼区間という考え方が必要となります。

標準誤差を1.96倍したものが95%信頼区間です。

標準誤差が68%の推定精度に対し、95%信頼区間は95%の推定精度です。

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
標準誤差について解説してください。
#制約条件：
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

標準誤差っていうのは、森のサルたちの平均体重を調べたいときに、どれくらい正確に測れているかを示す数値です。サルの一群から数匹を選んで体重を測ると、その平均値は毎回ちょっとずつ違いますよね。標準誤差は、その平均値のズレの大きさを教えてくれるんです。例えば、100匹のサルから10匹ずつ何回も体重を測って平均を出すと、その平均値はいろいろ変わります。これらの平均値のばらつきが小さいほど、私たちの測った平均体重は「本当の平均体重」に近いと言えます。標準誤差が小さいほど、より信頼性の高い平均値を得られている証拠です。つまり、標準誤差は、サンプルから得られた平均値が、どれだけ正確か（または信頼できるか）を示してくれる指標なんです。

関連リンク

標準得点【統計解析講義応用】

守秘義務【統計解析講義応用】

数量化Ⅰ類【多変量解析】

ビジネスに貢献するさまざまなデータ【ビジネス統計解析】

1

2

3

4

5

6

標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】

標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

標準誤差で解明！推定精度の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

母集団から標本をたくさんとる

標準誤差は母平均の推定精度

標準誤差の推定精度は68%

ChatGPTに聞いてみた

プロンプト

ChatGPTの回答

メニュー

サブメニュー

最新記事