無作為抽出と無作為化の魅力:統計と実験の裏側【ChatGPT統計解析】
無作為抽出(random sampling)は、統計調査で母集団から無作為にサンプルを選び出す手法です。全数調査に比べて費用と手間が少なく、代表的な例としてセンサスが挙げられます。無作為抽出で得られたサンプルからのデータは、母集団全体の傾向を推測するのに用いられますが、エラーマージンが存在し、結果には誤差があります。また、無作為化(randomization)は、実験において対象をランダムに割り当てることで、偏りを防ぐための手法です。どちらも確率に基づくが、異なる概念です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
無作為の統計学
無作為抽出(random sampling)
最もよく知られた統計的方法の一つで「ランダム・サンプリング」ともいわれる。
「無作為」とは作為がないという意味の日本語訳だが、元来はrandomは「確率的」を意味とする。
「抽出」は、全体の替わりとして一部を「抽き出す」(サンプリング)ことである。
これによる調査を「サンプル調査」という。
ふつう、もし「日本人は……」というなら日本人全体(約1億3千万人)を調べてからでなくてはならない、と考えるのは理くつにかなっている。
しかし、ある電球が「2万時間の寿命がある」とうたう品質の管理をするためには、製造された電球をすべてあらかじめ寿命まで使用してみるという考え方は、合理的だろうか。
もちろんそうではないであろう。
文字通り、もとの集団(母集団)のすべてを調べ尽くす調査を「全数調査」という。
ことに知られるのは社会を対象とする統計調査(社会調査)のための全数調査で、「センサス」(census)とよばれる。
もともと「センサス」という語は、全数調査の典型である「国勢調査」を意味していた。
いうまでもなく、全数調査は莫大な費用(国勢調査では数百億円)、時間(同じく5年ごと)、そしてしばしば法令による強制(同じく回答義務がある)を必要とし、誰にでもできるものではない。
品質管理においても、全数調査は不可能というよりは無意味であることが多いであろう。
全数調査のかわりにずっと安い費用で誰にでもできるやさしい調査方法がこの無作為抽出である。
役立て方
やさしい解説をしてみよう。
まず「台帳」をそろえる。
大学なら、さしあたり学生番号のついた学生名簿を思いつく。
そして、目をつぶりながらランダムに0-9の数をとなえて、4桁ごとに記録する。
2865 0193 3264 8107 5526
この学生番号を選べばよい。
これで5人の学生をランダム・サンプリングできた。
これなら、100人、500人、1000人、……でも可能であろう。
実際には数を選ぶには「乱数表」、あるいはエクセルの乱数発生プログラムを用いる。
「乱数」とは、何の規則性もなく、等発生確率で並んでいる0-9の数の列をいう。
これによって、もとの母集団がどれほどの数であろうとも、均等、平等に、満遍なく(「偏り」なく)たとえば1,000人を抽き出すことができる。
このようにしてとった1000人の部分集団を「サンプル」(ランダム・サンプル)とか「標本」という。
ランダム・サンプルは母集団の忠実な縮図というべきもので、ランダム・サンプルで得られた知識はほぼ母集団の知識と考えてよい。
その反面、無作為抽出が文字通り、もとの母集団自体を調べているのではないことには注意しすぎることはない。
サンプルでの数量(たとえば内閣支持率)は、母集団でのほんとうの支持率とは厳密にはずれていて、一致しない。
ただ、この母集団支持率に近い支持率がサンプルにあらわれる(サンプル支持率)だけであり、新聞が報じる「内閣支持率」はこれである。
これをほんとうの(母集団)の内閣支持率であるかのように思うのは錯覚である。
ほんとうの母集団支持率は高い確度(「信頼係数」といわれるが、確率で表す)でサンプル支持率の近くにある。
無作為抽出によった場合、サンプル支持率をp(pハット、と読む)としよう。
たとえば、p= 0.45などである。
このとき、母集団支持率の存在する範囲は、確率95%とすると、以下の2数
の間である。
nはサンプル・サイズ(サンプルを構成するデータ数字の個数)である。
ここでp=0.45、n=1000としてみよう。
ゆえに1.96×0.015 = 0.031(3%)で、ほんとうの支持率は45±3.1(%)の間つまり41.9%-48.1%である(この中のどの数かはわからない)。
この±3.1(%)を無作為抽出の「誤差幅」(error margin)という。
したがって新聞社の内閣支持率を読む正しい方法は、この場合では、±3%のエラー・マージンを付けて読むことである。
残念ながら日本の新聞社はエラー・マージンを発表していない。
が、サンプル・サイズが1000程度なら3%程度、n=4000とすると±1.5%となる。
すなわち、この幅はnの平方根に反比例する。
また、この1.96という倍数は信頼係数95%に対応する。
99%なら2.16となる。
「社会調査法」を学ぼう
ここまでの理論は、市場調査にも応用することができる。
これらの分野のより一般的でくわしい方法や手続は「社会調査法」という方法として知られている。
「無作為抽出」とならんで「無作為化」という用語があるが、全く別の術語と考えてよい。
ランダム(random)
ざるに1円玉1000枚で「ランダムメカニズム」
「宝くじ」の抽せんからはじまって、社会調査のサンプルを抜き出す「ランダム・サンプリング」、さらには数理的シミュレーションに用いるモンテカルロ実験(コンピュータ実験)まで、すべてランダムである。
「ランダム」とは何か。
1円玉1000枚を集め、100枚ずつそれぞれ0、1、2、……、9の数を書き入れ、これら1000枚を一つのざる(かご)に入れる。
このざるを両手で持ち、大きく上下に何回も振って、1円玉がよくまざるようにし、1枚とり出し、番号を記録する。
次にまた同じように1枚とり出し記録する。
これを何十回もくり返すと、数の列が、
034743738636364 73661……(以下続く)
のように得られる、ここに得られた数字の並びは「乱数」(ランダム・ナンバー)、また乱数を生み出すこのような仕組みは一般に「ランダム・メカニズム」、「ランダム機構」、あるいは「ランダム・デバイス」といわれる。
ランダム機構には、このほか、宝くじの抽せん機、20面体の「乱数さい」(正20面体の各面に0、1、2、…、9が2回ずつ書き込まれている)コンピュータの乱数発生コマンドなどがある。
ロトくじや年賀はがきの賞品くじ引きで乱数が使われることはもちろん、社会調査では乱数で回答者を選ぶなど、生活や研究で用いられている。
「無規則」ということ
「ランダム・メカニズム」といえるための最低条件は次の2つである。
@独立性 各回の数の出方が次の回以降に影響を与えることはまったくない。
A一様分布 0、1、2、…、9は等しい出方の確率1 /10をもつ。
これら@、Aの性質をあわせて「ランダム」の条件という。
独立性@によれば、次回やそれ以降を確定的に予想する(言いあてる)ことはできないことはもちろん、一様分布の性質Aによれば、○が△よりも出やすいあるいは出にくいという確率的な予想もできない。
確定的にも確率的にも予想の方法あるいは規則(ルール)はないということで、要するに「ランダム」とは「無規則」のことに他ならない。
無規則なのだから「出やすい傾向」とか「くせ」は存在せず、表面的な「傾向」だけにもとづいて賭けで勝つ「戦略」もありえないことに注意しよう。
乱数はほんとうにランダムか
抽せんの数字の並びがランダムか、と問題にされることがある。
ほんとうは「ランダムか」という問いはランダム・メカニズムに対するもので、たった1通りの結果がランダムかどうかは、答えることができない。
実際、試すごとに異なった乱数が無限通りあり調べ尽くすことはできない。
とはいえ、得られた数の並びから統計データ分析を用いておおよその検証をすることはできる。
その統計的な検証は、次のχ2(カイ2乗)の計算で1 /10という想定(各20回ずつ)からのずれを測る方法である。
データは乱数さいの200回の結果である。
この値は小さい値である。
あるいは統計理論では「ずれは有意でない」という。
その根拠は基準値16.92より小さいからである。
このようにして、Aの条件はクリアされる。
@の独立性を統計的に検証することは、ほとんど行われていない。
それは@が成立しないパターンは無限にありえるからで、それの(否定の)チェックは不可能だからである。
もっぱらランダムの作り方に十分注意することで確認される。
このとき、特定のパターンが注目を引くことでランダムでない、と結論づけることはできない。
たとえば先のざるに1円玉のランダム機構でも、37-38の続き数字、63696の3の倍数の5回連続、乱数さいの結集にも83-84、640-641などが出ている。
むしろ「続き数字は起こってはならない」とすると、これこそが規則になってしまう。
「ランダム」にかかわるには、以上の基礎的な常識が必要である。
無作為化(randomization)
「ランダム」とは「無作為配分」、「無作為割り付け」(random assignment)ともいう。
「無作為」とは「作為」がないということを意味し、萸語のrandomを訳したものだが、訳語としては少し固いが「確率化」とした方がわかりやすい。
この「ランダム」を理解するには、さいころ、コイン(硬貨)を思い出すとよい。
それぞれ1. 2. 3. 4. 5. 6あるいは表(1とする)、裹(0とする)を確率的に(ランダムに)出すときに用いている。
ことにコインは、われわれがものごとを公平、平等に決めようとするとき、あるいはあまりに決めるための要素が多すぎるとき、最終決定として用いている。
「ランダム」にはそういうメリットがある。
背景の原因が入ってくる
この「ランダム」には次のような用い方がある。
まず次のような取り返しのつかない困ったケースがあったとしよう。
【ケース1】
ある学校で新しい教育法を実験的に導入する準備として、1組に新しい教育法、2組には従来の方法を実施した(ここで1組を「実験群」、2組を「対照群」という)。
1組の方が2組より評価テストの平均が高かった。
このことから、新しい教育法にはたしかに効果があるといってよいか。
じつは、もともと1組の生徒は2細の生徒より学力が高かったことが判明した。
【ケース2】
ある医師は認可された新薬の効果を確認するため、午前の患者には新薬を投与(実験群)、午後の患者には従来の薬を投与(対照群)した。一定期間この方針で投与した後、治療効果を評価したところ、午前の患者の方が良好な成績をあげていた。
このことから、新薬は従来の薬よりも治療効果が優れているといってよいか。
じつは、この医療機関は午前中に外来、午後は入院患者を診療・治療していた(以上は、仮想上の設定で現実とは無関係である)。
このような大失敗はよくある。
これらのケースでは、いずれも、実験群と対照群が最初から同等の質でなく、差があり、実験・研究の目的である新教育法の効果、新薬の効果が、それぞれ新教育法の効果+学力差、新薬の効果+重症度の差、というように、背景の原因が混じってしまっている。
これを「混同」とか「交絡」という。
このままでは目的は果たせない。
「ランダム」が役立つ
新教育法の効果(ケース1)で、1組、2組をそれぞれ半分に割って、男子生徒を従来の教育法、女子生徒を新教育法で教えてみる、というプランがあるかもしれない。
しかし、このプランでは、こんどは学力や適正の性差(たとえば、国語は女子生徒のほうができるかもしれないという反論がないとも限らない)があったら、という論議が出てくる。
こう考えると、早生まれと遅生まれ、あるいは他の科目の学力差、‥‥‥と無限に次々に要因(混同の要因)が考えられることになる。
したがって、ある決めた要因によって、実験群と対照群を分けることはできない。
コインでランダムに決める方法は、このいずれの要因からも無関係に決められるのである。
そこで、ケース1では、1組プラス2組の計70人を、あたかもコインを投げて決めるように、1人ずつ実験群、対照群に入れていけばよい。
ケース2でも、同じようにコインを投げて決めるように、ランダムに新薬を投与する患者と、従来薬を投与する患者に分ければよい(なお、医療で「実験」というと「人体実験」を思い出す読者もいるだろうが、ここでの「実験群」はあくまで統計学用語である)。
医学の方面で用いられているこの無作為化には、厳しくいえば、「インフォームド・コンセント」が必要であろう。
ただし、この方法では2群は個数が確実に等しくなるとは限らず(下右表)、さらには、群の決め方(群への割り当て方)はランダムであるが、結果としての2群は偶然に1,2組の区別や男女区別に近く分かれているかもしれない。
無作為化の結果までは保証されない、ということも注意すべきである。
さらには、患者の立場からすれば、いかに理論的に正当な方法であろうと、自分に与えられる処置が医師の判断でなく、確率的に(つまり、あたかもさいころやコイン投げで)決まることに、反撥、とまどい、困惑を感じることは避けられない。
それはたとえ、インフォームド・コンセントがあっても変わらない、という批判もよせられる。
今後の大きな課題である。
なお、「無作為化」と「無作為抽出」は、ともに「確率」をもとにしているが、まったく異なった無関係な考え方である。
関連リンク