統計学の鍵、無作為抽出で解く母集団の謎【ChatGPT統計解析】
統計学において、母集団の度数分布、すなわち母集団分布は、その母集団から無作為に抽出された標本の確率分布を指す。この分布は、全データの一部を無作為に選んで分析する統計的推測の基礎をなし、標本という確率変数は母集団分布に従う。統計的推測では、選ばれた標本の結果から母集団の平均や分散などを推測する。無作為抽出は、どの個体も平等なチャンスで選ばれる公平な方法であり、結果の確率は抽出された標本の構成に依存する。したがって、標本が母集団全体を代表するように無作為抽出することが、正確な統計的推測を導く鍵となる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
すべてのデータを調べることが難しいとき、その一部のデータを調べて、その結果から度数分布を推測したり、あるいはせめてデータ全体の平均あるいは分散だけでも推測する方法を考えます。
これが統計的推測というものです。
この手法はくじびきの考え方が基本になっています。
無作為標本抽出
統計的推測では、すべてのデータを調べずに、データの集まり全体のようすを調べようというのですから、調べた結果は間違っている可能性があります。
たとえば、日本男性全体の身長の平均を、10人だけ調べて、その平均で推測するとしましょう。
背の高い人、低い人、いろいろな人を10人とり出すことができれば、10人の平均は日本男性全体の平均に近いものになるでしょう。
しかし、身長180cm以上の人ばかりをとり出してしまったら、日本男性全体の身長の平均は、185cmぐらいだろう、という誤った結論を出してしまうことになります。
もちろん、わざわざ背の高い人ばかりを集めて、わざわざ間違った推測を行う必要はありません。
しかし、10人をとり出すときには、まだ日本男性全体の身長の分布を知らないわけですから、身長185cmの人が日本男性のなかで「背の高い人」なのか「背の低い人」なのかはわかりません。
ですから、「背の高い人、背の低い人、いろいろな人」を、身長を見て選ぶことはできません。
そこで、この10人を「公平なくじびき」で選ぶことにします。
「公平なくじびき」とは、「どの人も同じチャンスで選ばれる」というくじです。
公平なくじびきで選んだとしても、背の高い人ばかりが選ばれて、誤った結論を出してしまう可能性はあります。
しかし、もし日本男性に身長180cm以上の人が少ないのなら、10人選んだときにその人たちが180cm以上である可能性は小さいですから、この方法で誤った結論を出す可能性は低いことになります。
可能性の高い・低いを測るのは、確率です。
統計的推測と確率は密接な関係があります。
なお、統計的推測の言葉では、このようなくじびきを無作為標本抽出(無作為抽出)といいます。
また、日本男性の身長全体のような、調べたいデータの集まりを母集団、調べるためにとり出したデータを標本、とり出したデータの数を標本の大きさ、あるいは標本サイズといいます。
なお、標本という言葉はデータの集まりをさすので、標本の数とはいいません。
母集団の度数分布は確率分布
くじ箱のなかの当たりくじの割合が20%のとき、当たる確率は20%である」ということは、当たり前のように思われています。ほんとうでしょうか?
それがほんとうであるためには、箱のなかの特定のくじが選ばれやすかったり、あるいは当たりが出たら次ははずれが出やすい、といったことがなく、どのくじもつねに同じチャンスで選ばれるくじでなければなりません。
これが「公平なくじびき」で、前節の「無作為抽出」と同じです。
つまり、公平なくじびきでは、
@どのくじも、同じ確率で選ばれる
A各くじが選ばれる確率は、いつくじを選んでも同じである、つまり、独立である(他にどんなくじが選ばれたかには影響されない)
ということになっています。
このとき、前章で説明した「確率のラプラスの定義」すなわち「サイコロには6種類の目があり、どれも同じ確率で出るなら、ある目が出る確率は1/6である」という考えを用いると、
どのくじも選ばれる確率は同じ
⇒ひとつのくじが選ばれる確率は、1/くじの総数
⇒くじ箱のなかの当たりくじが20%入っているのなら、当たりくじの総数は、20%×(くじの総数)
⇒当たりくじが選ばれる確率は、
1/くじの総数×(20%×くじの総数)、すなわち20%
という常識的な考えがなりたちます。
これを、当たり、はずれのどちらかが出るくじびきではなく、度数分布の場合で考えてみましょう。
日本人男性全体の度数分布において、階級値172.5cmの相対度数が20%だとしましょう。
そうすると上の原理から、日本人男性全体からあるひとりの人を無作為抽出したとき、選ばれた人が階級値172.5cmの階級に属している確率は20%です。
これはどの階級についても同じです。
つまり、
母集団のある階級の相対度数=その母集団から無作為抽出された標本が、その階級に属する確率
となります。
これを度数分布全体でみると、度数分布とまったく同じ「確率の分布」ができます。
これを標本の確率分布といいます。
つまり、
母集団の度数分布(母集団分布)=その母集団から標本を無作為抽出したときの確率分布
となります。
なお、どんな値かは決まっていないが、とりうる可能性のある値とその値をとる確率、つまり、確率分布を考えることができるような数を、確率変数といいます。
さらに、確率変数は、〇〇という確率分布にしたがう
という言い方をします。
たとえば、サイコロを1回振ったときに出る目は、確率変数です。
どの目が出るかはわかりませんが、出る可能性のある値は1、2,3,4,5,6、のどれかです。
これらの値が出る確率はいずれも1/6です。
標本も確率変数のひとつです。
標本という確率変数は、母集団分布と同じ確率分布にしたがう
ということになります。
関連リンク