Python・R・エクセルによるデータサイエンス | 統計解析講義

統計解析の重要な柱:推測統計【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計解析の重要な柱:推測統計【統計解析講義基礎】

統計解析の重要な柱:推測統計【統計解析講義基礎】

統計解析の重要な柱:推測統計【統計解析講義基礎】

目次  統計解析の重要な柱:推測統計【統計解析講義基礎】


推測統計

統計解析で、記述統計と並んで重要なのが推測統計です。

 

推測統計の根底にあるのは、母集団と標本という考え方です。

 

母集団は巨大すぎて測ることができません。例えば日本人1億3千万人の平均血糖値を測定しようと思うと、物凄い労力と時間とお金がかかります。

 

そこで、母集団から標本(サンプル)を抽出し、その標本から母集団の性状を推測しよう、というのが推測統計の根幹の考え方です。

 

ではどのようにして推測するか、そこでは、確率分布の考え方が重要になります。

 

例えば母平均を推定したいとします。

 

その場合、母集団から標本を例えば100個とか抽出します。

 

そしてその標本内の100個のデータを平均すると、標本平均が求まります。

 

この標本平均は、母平均にかなり近い値になることが知られています。

 

ただし、標本を母集団から偏りなくランダムにとることが条件です。

 

標本平均の値から、母平均の値を推測する、まさに推測統計です。

 

では、この母平均の推定精度はどの位でしょう。

 

標本平均は母平均のよい推定にはなりますが、厳密には同じになりません。

 

少しブレます。

 

では同じ母集団から別の標本をとり再び標本平均を計算します。

 

この値も、一回目に得た標本平均の値に近くはなりますが、全く同じにはなりません。

 

少しブレます。

 

標本自体が違うので、少しくらいブレたとしてもおかしくありません。

 

しかしそのブレは小さいです。

 

この小さいブレの大きさが標準誤差と呼ばれるものです。

 

このブレは、標本サイズ、つまり標本の中のデータの数が小さい(数十個とか)ですと大きくなりますが、

 

標本サイズが大きい(数百とか数千とか)と小さくなります。

 

標本サイズが大きければ大きいほどブレは小さくなります。

 

実験で、データは多くとった方がいいとよく言われる理由はここにあります。

 

標準誤差は、母標準偏差を標本サイズの平方根で割ったものです。

 

標本サイズが大きいほど、標準誤差は小さくなります。

 

このブレの大きさがすなわち母平均の推定精度になります。

 

さて、仮にこの同じ母集団からの標本抽出を何度も行うという、ありえない光景を想像しましょう。そして、各標本から標本平均を計算し、この標本平均を多数集めます。

 

すると、この多数の標本平均の分布は、必ず正規分布になります。

 

これを中心極限定理といいます。統計学の大定理と呼ばれています。

 

この必ずなる正規分布の標準偏差が、すなわち標準誤差です。

 

標準誤差の問題

標本サイズが大きいほど標準誤差は小さくなるので、この正規分布は細いつりがね型になります。

 

その母平均を含む範囲は、この細い正規分布の標準偏差にあたりますから、±標準誤差で68%です。

 

32%は母平均をはずしてしまいます。

 

これを推定精度と呼ぶには、ちょっと頼りないですね。
そこで、±1.96×標準誤差と、範囲を1.96倍広げます。

 

こうすると、母平均をちょうど95%カバーすることになります。

 

この±1.96×標準誤差が、すなわち±95%信頼区間 です。

 

推測統計では、標準誤差より圧倒的に95%信頼区間の方がよく使われます。

 

その理由は、95%という推定精度の良さにあります。

 

100回標本抽出し、95回は母平均を含むので、信頼性が高いですね。

 

ただ、5回ははずす可能性があります。完璧ではありません。

セミナー詳細こちら                    解析ご相談こちら


 

 

 

統計解析の重要な柱:推測統計【統計解析講義基礎】

統計解析の重要な柱:推測統計【統計解析講義基礎】

統計解析の重要な柱:推測統計【統計解析講義基礎】