標本から母集団を見る統計の技術【ChatGPT統計解析】
推測統計は、標本を用いて母集団の特性を推測する方法であり、標本が母集団の縮図であることが極めて重要です。ランダムサンプリングによって選ばれた標本は、偏りがなく、母集団を正確に反映する必要があります。全例調査に比べ、標本調査はコストが低く、より実行可能な方法ですが、推測には限界があり、精度は全例調査に劣ります。正確な推測を行うためには、標本抽出の方法に注意を払い、ランダムに選ばれた標本を母集団の代表として用いる必要があります。このプロセスは、統計的推測の信頼性と精度を確保する上で不可欠です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
標本は母集団の縮図
統計学の柱の一つ、推測統計では、母集団と標本という考え方がとても重要です。
日本人の平均血圧ってどの位だろう?
あなたはこんな疑問をもったことはありませんか。
多分欧米人より低いだろうとか、いろいろな想像をめぐらすことかと思います。
「日本の?」とか、「世界の?」とか「一般に?」などの接頭辞がつくとき、私たちは目の前のことに興味をもたないです。となり近所のおじさんの血圧など何の興味もないのです。
私たちが関心を示す対象の多くは、特定の人や小集団より、日本とか世界とかの巨大な集団です。
これを母集団と呼んでいます。
一方、日本人の平均血圧ってどうすれば知ることができるでしょうか。
1億3千万人の血圧を一斉に測定し、データを一気に集め、集計して平均を出せばよい。
どう考えても無理ですよね。有名な国政調査、あんな簡単な調査でも700億円ものお金をかけて時間をかけて実施します。
ましてや1億3千万人の血圧のデータを大規模に収集しようと思ったら、血圧計もたくさん必要だし、計測してデータを収集するスタッフも山のように必要になります。
かかるお金はおそらく1000億円以上でしょう。
そこまでして、日本人の平均血圧を知りたいのか、ということです。
そこで、日本人1億3千万人(母集団)から数十人〜数百人をランダムサンプリングし(標本)、標本で得られた値から母集団の値を推測します。
これが推測統計(統計的推測)です。
ただし標本が母集団の縮図であることが、正しい推測のために必要です。
ランダムサンプリングにより標本を得ることが重要で、ランダムサンプリングにより偏りのない、母集団の縮図としての標本を得ることができます。
全例調査と標本調査
母集団は基本的には、測ることは出来ないと思った方がいいのです。
測るのはお金と時間の無駄です。
集団の一人一人をしらみつぶしに調査することを全例調査とか、悉皆調査とかいいますが、集団が大規模な場合は、大変な調査ということになります。
調査の意義とかかるお金を天秤にかけて、実施するかとうかを判断します。
では、私たちは母集団のことを知りたいのに知ることができないのでしょうか。
厳密には知ることが出来ません。神様にしかわかりません。
しかし、推測することはできます。
それは一部のデータを抜き取って、それに基づき推測をするという方法です。
本当は知りたいのだけれど、測ることのできない巨大な集団が母集団、そこから抜き取ったものを標本(サンプル)、抜きとることをサンプリングといいます。
サンプリングした標本に基づく調査を標本調査といいます。
全例調査に比べ、標本調査の方がはるかに費用が安くすみます。
ただし推定なので全例調査に比べ精度は落ちます。
ランダムサンプリング
ここで大事なことは、抜き取りはランダム(無作為)に偏りなく行うとうことです。
ランダムサンプリングといいます。
例えば日本人の平均血圧をこの方法で求めようと思ったら、高齢者ばかり集めるとか、塩分の多めの食事をとる北海度や東北地方の人ばかり集めるとか、そういう偏りがあってはいけません。
いろいろな年齢層を、いろいろな県からランダムに集める必要があります。
集めて得られた標本は、母集団の縮図でなければなりません。
縮図とはつまり、母集団全般にあてはまるという意味です。特定の集団に偏った結果であってはいけません。
C型肝炎という病気があります。推定患者数は200万人と言われています。
最近、C型肝炎の薬で、ソフスブビルという薬が市場に登場しましたが、この薬の治験を140人のC型肝炎患者で実施したところ、135人がC型肝炎ウィルスが体から無くなった(C型肝炎が治った)、有効率96.4%という驚異的結果でした。
この場合も、140人中135人も治ったのだから、治験の140人に入れなかった残りのC型肝炎患者200万人−140人も、この薬でほとんど治るのだろうと推測します。
仮にこの140人が高齢者ばかりであったとすると、この治験の結果は若年のC型肝炎患者にはあてはまらなくなる可能性があるわけです。
この140人は、200万人の縮図でなければなりません。偏った集団ではいけないのです。
逆に言えば、偏っていなければ的中する可能性が高くなります。
もちろん推測なので、100%当たるという保証はありませんが、標本から得られた結果は、偏ったサンプリングをしていなければ、かなりの高確率で当たると考えてよいのです。
母集団の平均(母平均といいます)は神様しかわかりませんが、標本から得られた平均(標本平均)から推測することが可能であるということです。
1936年の大統領選の世論調査では、ランドン候補370に対して、ルーズベルト候補161でした。
しかし、実際の大統領選では、ランドンの票は36.5%、ルーズベルトは60.8%で、ルーズベルトが大統領になりました。
この世論調査は電話での調査で、当時電話を所有していたのは富裕階級のみであったとされています。
つまり、世論調査の対象集団は「偏った集団」であり、米国の有権者全体の集合すなわち母集団の縮図ではなかったということです。
本来ならば米国有権者についてランダムサンプリングをする必要があるのですが、電話を使わずにサンプリングするのが難しい当時の情勢を鑑みると致し方なかったのかもしれません。資源に依存するところが、ランダムサンプリングの難しい点です。
これはほんの氷山の一角であり、世の中のほとんどの調査結果はランダムサンプリングが十分にされていないといっても過言ではないかもしれません。
たちがわるいのは、調査した本人が偏っていることに全く気がついていない点です。
仁和寺の法師の石清水詣と同類の話です。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
母集団と標本について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
想像してみてください。ある森に1000匹のサルがいます。この1000匹全部が「母集団」です。でも、全員を調べるのは大変ですよね?そこで、ランダムに10匹のサルを選んで、調べることにします。この選んだ10匹のグループが「標本」です。母集団は調べたい全ての対象、標本はその中から選んだ一部のこと。標本をうまく選べば、1000匹全員を調べなくても、森のサルたちについて良い予想ができるんです。簡単でしょ?これが母集団と標本の基本です!