Python・R・エクセルによるデータサイエンス | 統計解析講義

推測統計学で重要な信頼区間【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

推測統計学で重要な信頼区間【統計解析講義基礎】

推測統計学で重要な信頼区間【統計解析講義基礎】


推測統計学で重要な信頼区間【統計解析講義基礎】

 

目次  推測統計学で重要な信頼区間【統計解析講義基礎】

 

信頼区間

 

統計学では誤差の表現の仕方は様々です。

 

特に標準偏差と標準誤差と信頼区間の違いはわかりにくいですがこれを正確に理解することが統計学を理解する上で非常に大切です。

 

標準誤差は母平均の推定精度の指標ですが、±標準誤差の範囲に母平均が含まれる確率は、約68%です。

 

推定精度の指標が68%の推定精度というのはあまりにお粗末です。

 

そこで、95%信頼区間という考え方が必要となります。

 

これは単に、標準誤差の大きさを1.96倍拡大したものです。

 

すなわち、±1.96×標準誤差が、±95%信頼区間 に相当します

 

100個のばらついたデータの、平均±標準偏差の範囲にはデータが68個含まれますが、平均±1.96×標準偏差の範囲にはデータが95個含まれます

 

考え方はこれと同じで、長さを1.96倍拡大することにより、母平均の推定精度を95%にまで高めたということです。

 

この範囲に、母平均が100回中95回は含まれる、5回ははずしてしまう危険はあるものの、100回中68回に比べるとかなりましなのではないでしょうか。

 

標準誤差の長さを1.96倍しただけの95%信頼区間ですが、その母平均の推定精度の良さから、世の中では圧倒的に95%信頼区間が使われます。

 

標準偏差と標準誤差と信頼区間の定義

 

標準偏差と標準誤差と信頼区間の定義を整理すると以下のようになります。

 

標準偏差とは、ばらつきの指標です。平均±標準偏差の範囲に、100個中68個のデータが含まれているという意味です。

 

標準誤差とは、母平均の推定精度の指標で、標本抽出100回中68回は平均±標準誤差のなかに母平均を含むという意味です。

 

95%信頼区間とは、母平均の推定精度の指標で、標本抽出100回中95回は平均±95%信頼区間のなかに母平均を含むという意味です。標準誤差を1.96倍したものです。

 

標準偏差と標準誤差はたった一字の違いですが、その意味するところは大きく異なります。

 

一方、標準誤差と95%信頼区間は、母平均の推定精度の指標という意味では仲間です。

 

標準誤差を1.96倍すると95%信頼区間になるという、ただそれだけの違いです。

 

下の図は血清アルブミン(母平均35, 母標準偏差6)の100組の標本(n=100)に対して、平均値とその95%信頼区間を作り並べたものです。

 

右の図は同じものを平均値でソートしてあります。

 

上の例では7つの信頼区間が母平均を含んでいないことがわかります。

 

これはたまたまそうなったわけですが、一般には、100個中5個の95%信頼区間は母平均を含まない、つまりほとんどの95%信頼区間は母平均を含むという解釈になります

 

実際的には、標準誤差よりも1.96×標準誤差である95%信頼区間を使うことの方が圧倒的に多いのでここはよく理解しておきましょう。

 

標準偏差と標準誤差と信頼区間の使い分け

 

では、これらはどう使い分けたらよいのでしょうか。

 

グラフにすると、標準誤差が一番小さい、つまりヒゲの長さが短くなります。

 

見栄えがよいから、標準誤差で見せようとする人をよく見かけます。

 

標準誤差で表現すること自体間違いではありません。

 

説明の際に、標準誤差の説明をきちんとすればいいだけです。

 

標準誤差でエラーバーを表示しておきながら、「ばらつきはこの程度です」という説明をしてしまうと誤りです。

 

ばらつきで説明したいのであれば標準偏差を表示すべきです。

 

また、標準誤差で表現するのはいいですが、母平均の推定精度が68%というお粗末な推定精度のため、人に説明するのに苦労するのは避けられません。

 

エラーバーの長さの最も短い標準誤差が、最も使われない理由はまさにこの推定精度の悪さにあります。

 

エラーバーの長さと推定精度は、盾の両面なのです。

 

探索的な研究では、母平均が見当もつかない、ばらつきがどのくらいか、やってみないとわからないという面があります。

 

このような場合、標準誤差や信頼区間よりも、標準偏差でばらつきを表現することをおすすめします。

 

一方、母平均がわかっている、もしくはあらかじめ予想できる場合には、95%信頼区間の方がよいでしょう。

 

臨床研究では、標準的な値がわかっていることが多いので、95%信頼区間がよく使われます。

 

要は、ばらつきが問題となる場合には標準偏差を、母平均の推定が問題となる場合には信頼区間を使う、といった使い分けになります。

セミナー詳細こちら                    解析ご相談こちら


 

 

推測統計学で重要な信頼区間【統計解析講義基礎】

推測統計学で重要な信頼区間【統計解析講義基礎】

推測統計学で重要な信頼区間【統計解析講義基礎】