推測統計における色々な標本抽出|【統計学・統計解析講義応用】
推測統計における色々な標本抽出
非確率標本抽出
標本の抽出には多数の方法がある。
残念ながら、最も便利な方法には非確率標本抽出に基づいているものもあり、標本バイアスの影響を受ける。
これは非確率法を使って抽出した標本は対象となる母集団の代表にならない確率が高いことを意味し、標本を統計的に補正する方法がないので、標本計算に基づく母集団に関する結論は疑わしくなる。
非確率標本抽出法は、研究者が確率標本を抽出するという面倒な工程を回避できるので人気があるが、この便利さの代償を払うことになる。非確率標本抽出法を利用したデータに基づく結論は、標本が対象となる母集団とどのように関連するかを知る方法がないため、大規模な母集団への一般化(そもそも標本を抽出する通常の理由)での有用性が限られる。
そのため、標本からの結果に基づいた母集団に関する結論はあまり信用できない。
志願者標本は、一般的な非確率標本である。
例えば、研究者が新聞に研究被験者の広告を出し、この広告に応じた人や志願者を研究に参加させる。
これは被験者を得るための便利な方法であるが、残念ながら研究への志願者は一般集団の代表とはみなせない。
志願者標本は、母集団から標本を無作為に選ぶのが難しい状況で使うのが最善である。
例えば、違法薬物使用者に関する研究などである。
一般化の能力が限られているとはいえ、特にプロジェクトの初期段階では志願者標本から有益な情報が得られる。
例えば、志願被験者を利用してある地域内での薬物使川に関する情報を収集し、その情報を利用してその地域からの無作為標本に行うアンケートを作成できる。
それでも、標本を超えた一般化が目的の場合には、志願者標本の結果の有用性は限られている。
恣意的標本も一般的な非確率標本である。
志願者標本と同様に、研究の初期段階で恣意的標本を使って情報を収集できるが、標本を超えた一般化が目的の場合には有用性に限りがある。
恣意的標本の例として、特定の地域内のショッピングモールで買い物をしている50人にインタビューを行ってその地域の人々の買物習慣に関する情報を収集する。
この50人は地域住人の無作為抽出ではないため、その人々の意見が地域全体の意見を反映していると断定するのは妥当ではないという問題がある。
しかし、恣意的標本に実施した調査から得た情報を使って、その地域住人のより科学的な標本に対するアンケートを作成できる。
割り当て抽出は、データ収集者が広い分類内のある数または割合の対象者から回答を得るように指示された非確率標本抽出法である。
例えば、ショッピングモールの例では、データ収集者は25人の男性と25人の女性からデータを収集するとか、少なくとも20人の非白人を標本に入れるようになどと指定される。
割り当て抽出は標本内のさまざまな人口層の代表となることを保証できるので、恣意的抽出よりは多少改善されている。
例えば、割り当て要件がなければ、ショッピングモール標本は45人の女性と5人の男性になる。
しかし、割り当て標本抽出は非確率標本抽出法であるため、やはり標本の人々が対象となる母集団を代表するかどうかを知る手段はない。
例えば、割り当て標本に男性と女性の代表が入っているかもしれないが、その標本の人々はショッピングモールで買い物をしているすべての男性と女性、ましてやその地域に住むすべての男性と女性を代表しているだろうか。
割り当て標本抽出は特定の種類の選択バイアスの影響も受け、これは恣意的抽出でのリスクでもある。
データ収集者は自分と最も似かよって見える人(例えば年齢)、最も親切に見える人、最も近づきやすい人に働き掛ける可能性があるので、標本は大きな母集団に関する情報を得る手段としてはさらに役に立たなくなる。
確率標本抽出
確率標本抽出では、母集団のすべての要素の標本に選ばれる確率がわかっている。
非確率標本抽出よりも実施するのが複雑であるが、標本から得た結果を対象となる母集団に一般化できるので、研究者は確率標本抽出の方を望む。
母集団から確率標本を抽出するには、母集団から要素を特定して抽出できるようにある種の抽出枠を研究者が考案する必要がある。
母集団が学校に入学した生徒の場合、入学生全員のリストは抽出枠としての役割を果たす。
あまり最適でない抽出枠を使わなければいけない場合もある。
例えば、電話で実施する調査に電話帳や使用中の電話番号ブロックを利用する場合、どちらの種類の電話抽出枠でも問題となるのは、電話サービスを利用していない人は標本を抽出する母集団に入らないが、対象となる母集団には入る可能性があることだ。
また、電話帳に載っていない電話番号を持つ人や携帯電話サービスだけの人もこのような手法を使って抽出した電話標本から除外されるが、対象となる母集団には含まれる可能性がある。
分析時に重み付けやその他の手法を使い、調査標本の結果を対象となる母集団に適用できるようにすることができる。
最も基本的な種類の確率標本抽出は、単純無作為抽出(SRS : Simple Random Sampling)である。
SRSでは、あるサイズの標本はすべて選択される確率が同じである。
特定の学校に通う生徒50人の無作為標本を抽出したいとしよう。
生徒のリストを取得し、そのリストから乱数表や乱数発生器を使って無作為に50人を選ぶ。
リストは母集団全体の一覧を表しており、標本に入れる人の選択は完全に無作為なので、どの生徒も標本に選ばれる確率は同じであり、どんな生徒の組合せでも選ばれる確率が同じである(この例では、サイズ50のすべての標本が同じ確率)。
ほとんどの場合、SRSはあらゆる種類のサンプリングの中で最も望ましい統計的性質(パラメータ推定値の最小信頼区間など)があり、分析に必要な手続きが最も簡単である。
しかし、SRSは一部の状況では実施が不可能または極めてコストがかかる場合があるので、SRSが不可能なときや現実的でないときのために別の確率標本抽出法が開発されている。
系統的標本抽出
系統的抽出はSRSに似ている。
系統的標本を抽出するには、母集団のリストなどの一覧が必要である。
抽出したい標本のサイズを決め、数値対を計算する。
この方法で標本の選択方法が決まる。
母集団のサイズを標本に必要な被験者数で割って計算する。
母集団が500で標本サイズが25の標本を抽出したい場合には、500/25 = 20なのでN = 20である。
そして、1からZの間から開始番号を無作為に選び、開始番号を衣す被験者とそれ以降番目ごとの被験者を標本に入る。
1,000の母集団から標本サイズが100の無作為標本を抽出したいとしよう。
1から10の問の番号を無作為に選ぶ。
その番号の被験者とそれ以降10番目ごとの被験者を選ぶ。
無作為に選んだ番号が7の場合、標本には7番目の被験者、17番目、27番目と続き997番目の被験者までが入る。
系統的抽出法は、母集団が時間とともに増加し、母集団のあらかじめ決まったリストがない場合に特に便利である。
例えば、来年に出廷する人を調査したいとする。
調査の開始時には、誰が出廷することになるかわからないため、前年の訴訟件数に基づいて対象となる母集団を推定し、標本サイズを決め、計算する。
そして、出廷した人の順序リストを人手し、無作為な開始点を選び、その無作為な開始点に対応する人とそれ以降の、X番目ごとの出廷した人を選択する。
無作為な開始点を10に決めた場合、10番目の人、24番目の人、38番目の人といったように希望の標本サイズになるまで調査する。
系統的抽出を使うときの注意点として、無作為の開始点との値に対応するデータが周期的になっていないようにしなければいけない。
例えば、法廷の特定の時間や日付が特定の種類の訴訟に予約されており、洲始点と、Zの組合せからその時間に出廷予定の大を選択する可能性がない場合、その標本は出廷する全員からの無作為選択ではなくなる。
複雑無作為標本抽出
複雑無作為標本には多くの種類がある。
複雑無作為標本は、SRSよりも1層以上の複雑さが課せられる確率標本抽出法を表す包括的用語である。
層別標本では、対象となる母集団を共通する特徴によって重複しないグループ(層)に分割する。
このような特徴は、人間では性別や年齢などになる。
都市では人口規模や政府の形態、病院では管理形態やベッド数などになる。
各層の比較やサブグルーブの特徴の推定が主な調査目的の場合には、層別抽出を選ぶのが適している。
層別抽出は、対象となる各層からの適切なサンプリングを保証するように設計できるからである。
例えば、SRSを使って抽出した標本には、鳥齢者の特徴を正確に推定したり中年層と比較したりするのに十分な数の高齢者が集まらない可能性がある。
それに対し、層別標本では高齢者をオーバーサンプリングするように設計し、後にオーバーサンプリングを補正するように標本を統計的に調整できる。
クラスター標本では、あらかじめ存在するグループを使って母集団をサンプリングする。
この手法は、対面面接や物理的検体(血液検体など)の収集が必要な全国調査でよく使用される。
なぜなら、面接のために調査員をバージニア州ラッカーズビルに1人、ネブラスカ州シヤドロンに1人、アラスカ州ハローに1人などと送るのは、大幅に費用がかかるからである。
より経済的な方法は、複数のレベルの無作為選択を持つサンプリング計画を立てることである。
全国レベルでは、地理的地域、その地域内の州、その州内の都市という順に個々の世帯や世帯内の個人まで選択するクラスター抽出計画を考案できる。
クラスター抽出では、単位内でクラスター化される対象が(例えば、都市内の世帯や州内の都市) SRSで選んだ対象よりも似かよる傾向があるため、正確性が下がる。
この正確性低下の埋め合わせとして、通常はクラスター抽出による費用がかなり節約できるのでより大規模な標本を収集できる。
クラスター抽出は、サイズに比例した抽出手法と組み合わせることもできる。
例えば、小学生の標本を抽出したいとする。
小学生の全国リストはないが(少なくとも米国にはない)、すべての小学校のリストなら作成でき、各学校には生徒のリストがあるだろう。
したがって、無作為に学校を選び(場合によっては多段階手順で)、選択した学校から無作為標本を抽出する。
各学校にはさまざまな数の生徒が通っているので、この情報をサンプリング計画に盛り込み、小規模な学校から不釣合いな数の生徒を選ばないようにしたい(小規模な学校の方が多いが、大規模な学校に比べて生徒数が少ない)。
そこで、抽出した学校から就学生徒数に基づいて異なる数の生徒を選ぶ。
つまり、就学者数が400人の学校からは200人の学校より2倍の生徒を選ぶ。
このようにすると、最終的な標本には大規模な学校と小規棋な学校の両方を代表する割合の生徒が入る。
関連記事