Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学的推測:母集団と標本【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学的推測:母集団と標本【統計解析講義基礎】

統計学的推測:母集団と標本【統計解析講義基礎】

統計学的推測:母集団と標本【統計解析講義基礎】

目次  統計学的推測:母集団と標本【統計解析講義基礎】


母集団と標本

統計学の柱の一つ、推測統計学では、母集団と標本という考え方がとても重要です。

 

日本人の平均血圧ってどの位だろう?

 

あなたはこんな疑問をもったことはありませんか。

 

多分欧米人より低いだろうとか、いろいろな想像をめぐらすことかと思います。

 

「日本の?」とか、「世界の?」とか「一般に?」などの接頭辞がつくとき、私たちは目の前のことに興味をもたないです。となり近所のおじさんの血圧など何の興味もないのです。

 

私たちが関心を示す対象の多くは、特定の人や小集団より、日本とか世界とかの巨大な集団です。これを母集団と呼んでいます。

 

一方、日本人の平均血圧ってどうすれば知ることができるでしょうか。

 

1億3千万人の血圧を一斉に測定し、データを一気に集め、集計して平均を出せばよい。

 

どう考えても無理ですよね。有名な国政調査、あんな簡単な調査でも700億円ものお金をかけて時間をかけて実施します。

 

ましてや1億3千万人の血圧のデータを大規模に収集しようと思ったら、血圧計もたくさん必要だし、計測してデータを収集するスタッフも山のように必要になります。

 

かかるお金はおそらく1000億円以上でしょう。

 

そこまでして、日本人の平均血圧を知りたいのか、ということです。

 

母集団は基本的には、測ることは出来ないと思った方がいいのです。測るのはお金と時間の無駄です。

 

集団の一人一人をしらみつぶしに調査することを全例調査とか、悉皆調査とかいいますが、集団が大規模な場合は、大変な調査ということになります。調査の意義とかかるお金を天秤にかけて、実施するかとうかを判断します。

 

では、私たちは母集団のことを知りたいのに知ることができないのでしょうか。

 

厳密には知ることが出来ません。神様にしかわかりません。

 

しかし、推測することはできます。

 

それは一部のデータを抜き取って、それに基づき推測をするという方法です。

 

本当は知りたいのだけれど、測ることのできない巨大な集団が母集団、そこから抜き取ったものを標本(サンプル)、抜きとることをサンプリングといいます。

 

ランダムサンプリング

ここで大事なことは、抜き取りはランダム(無作為)に偏りなく行うとうことです。
ランダムサンプリングといいます。

 

例えば日本人の平均血圧をこの方法で求めようと思ったら、高齢者ばかり集めるとか、塩分の多めの食事をとる北海度や東北地方の人ばかり集めるとか、そういう偏りがあってはいけません。いろいろな年齢層を、いろいろな県からランダムに集める必要があります。

 

集めて得られた標本は、母集団の縮図でなければなりません。縮図とはつまり、母集団全般にあてはまるという意味です。特定の集団に偏った結果であってはいけません。

 

C型肝炎という病気があります。推定患者数は200万人と言われています。最近、C型肝炎の薬で、ソフスブビルという薬が市場に登場しましたが、この薬の治験を140人のC型肝炎患者で実施したところ、135人がC型肝炎ウィルスが体から無くなった(C型肝炎が治った)、有効率96.4%という驚異的結果でした。

 

この場合も、140人中135人も治ったのだから、治験の140人に入れなかった残りのC型肝炎患者200万人−140人も、この薬でほとんど治るのだろうと推測します。

 

仮にこの140人が高齢者ばかりであったとすると、この治験の結果は若年のC型肝炎患者にはあてはまらなくなる可能性があるわけです。

 

この140人は、200万人の縮図でなければなりません。偏った集団ではいけないのです。

 

逆に言えば、偏っていなければ的中する可能性が高くなります。

 

もちろん推測なので、100%当たるという保証はありませんが、標本から得られた結果は、偏ったサンプリングをしていなければ、かなりの高確率で当たると考えてよいのです。

 

母集団の平均(母平均といいます)は神様しかわかりませんが、標本から得られた平均(標本平均)から推測することが可能であるということです。

 

米国大統領選挙予測

1936年の大統領選の世論調査では、ランドン候補370に対して、ルーズベルト候補161でした。しかし、実際の大統領選では、ランドンの票は36.5%、ルーズベルトは60.8%で、ルーズベルトが大統領になりました。

 

この世論調査は電話での調査で、当時電話を所有していたのは富裕階級のみであったとされています。

 

つまり、世論調査の対象集団は「偏った集団」であり、米国の有権者全体の集合すなわち母集団の縮図ではなかったということです。

 

本来ならば米国有権者についてランダムサンプリングをする必要があるのですが、電話を使わずにサンプリングするのが難しい当時の情勢を鑑みると致し方なかったのかもしれません。資源に依存するところが、ランダムサンプリングの難しい点です。

 

これはほんの氷山の一角であり、世の中のほとんどの調査結果はランダムサンプリングが十分にされていないといっても過言ではないかもしれません。

 

たちがわるいのは、調査した本人が偏っていることに全く気がついていない点です。

 

仁和寺の法師の石清水詣と同類の話です。

セミナー詳細こちら                    解析ご相談こちら


 

 

 

統計学的推測:母集団と標本【統計解析講義基礎】

統計学的推測:母集団と標本【統計解析講義基礎】

統計学的推測:母集団と標本【統計解析講義基礎】