推測統計における標本抽出の課題と工夫【ChatGPT統計解析】

推測統計における標本抽出の課題と工夫【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

推測統計における標本抽出の課題と工夫【ChatGPT統計解析】

推測統計における標本抽出の課題と工夫【ChatGPT統計解析】
推測統計における標本抽出には、非確率標本抽出と確率標本抽出がある。非確率標本抽出は便利だが、母集団を代表しないことが多く、標本バイアスが生じるため、一般化には限界がある。志願者標本や恣意的標本は初期調査に役立つが、代表性に欠ける。割り当て抽出は一部改善されるが、選択バイアスのリスクがある。確率標本抽出は、母集団全体に一般化できるため望ましいが、実施は複雑である。SRSは基本的な方法で、すべての要素が等確率で選ばれる。系統的抽出は、周期的バイアスを避ければ便利。複雑無作為標本には層別標本やクラスター抽出があり、効率よく特定の特徴を抽出し、多段階抽出によって費用を抑えつつ、代表性を高めることができる。

推測統計における標本抽出の課題と工夫【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  推測統計における標本抽出の課題と工夫【ChatGPT統計解析】

 

 

推測統計における色々な標本抽出

 

非確率標本抽出

 

標本の抽出には多数の方法がある。

 

残念ながら、最も便利な方法には非確率標本抽出に基づいているものもあり、標本バイアスの影響を受ける。

 

これは非確率法を使って抽出した標本は対象となる母集団の代表にならない確率が高いことを意味し、標本を統計的に補正する方法がないので、標本計算に基づく母集団に関する結論は疑わしくなる。

 

非確率標本抽出法は、研究者が確率標本を抽出するという面倒な工程を回避できるので人気があるが、この便利さの代償を払うことになる。非確率標本抽出法を利用したデータに基づく結論は、標本が対象となる母集団とどのように関連するかを知る方法がないため、大規模な母集団への一般化(そもそも標本を抽出する通常の理由)での有用性が限られる。

 

そのため、標本からの結果に基づいた母集団に関する結論はあまり信用できない。

 

志願者標本は、一般的な非確率標本である。

 

例えば、研究者が新聞に研究被験者の広告を出し、この広告に応じた人や志願者を研究に参加させる。

 

これは被験者を得るための便利な方法であるが、残念ながら研究への志願者は一般集団の代表とはみなせない。

 

志願者標本は、母集団から標本を無作為に選ぶのが難しい状況で使うのが最善である。

 

例えば、違法薬物使用者に関する研究などである。

 

一般化の能力が限られているとはいえ、特にプロジェクトの初期段階では志願者標本から有益な情報が得られる。

 

例えば、志願被験者を利用してある地域内での薬物使川に関する情報を収集し、その情報を利用してその地域からの無作為標本に行うアンケートを作成できる。

 

それでも、標本を超えた一般化が目的の場合には、志願者標本の結果の有用性は限られている。

 

恣意的標本も一般的な非確率標本である。

 

志願者標本と同様に、研究の初期段階で恣意的標本を使って情報を収集できるが、標本を超えた一般化が目的の場合には有用性に限りがある。

 

恣意的標本の例として、特定の地域内のショッピングモールで買い物をしている50人にインタビューを行ってその地域の人々の買物習慣に関する情報を収集する。

 

この50人は地域住人の無作為抽出ではないため、その人々の意見が地域全体の意見を反映していると断定するのは妥当ではないという問題がある。

 

しかし、恣意的標本に実施した調査から得た情報を使って、その地域住人のより科学的な標本に対するアンケートを作成できる。

 

割り当て抽出は、データ収集者が広い分類内のある数または割合の対象者から回答を得るように指示された非確率標本抽出法である。

 

例えば、ショッピングモールの例では、データ収集者は25人の男性と25人の女性からデータを収集するとか、少なくとも20人の非白人を標本に入れるようになどと指定される。

 

割り当て抽出は標本内のさまざまな人口層の代表となることを保証できるので、恣意的抽出よりは多少改善されている。

 

例えば、割り当て要件がなければ、ショッピングモール標本は45人の女性と5人の男性になる。

 

しかし、割り当て標本抽出は非確率標本抽出法であるため、やはり標本の人々が対象となる母集団を代表するかどうかを知る手段はない。

 

例えば、割り当て標本に男性と女性の代表が入っているかもしれないが、その標本の人々はショッピングモールで買い物をしているすべての男性と女性、ましてやその地域に住むすべての男性と女性を代表しているだろうか。

 

割り当て標本抽出は特定の種類の選択バイアスの影響も受け、これは恣意的抽出でのリスクでもある。

 

データ収集者は自分と最も似かよって見える人(例えば年齢)、最も親切に見える人、最も近づきやすい人に働き掛ける可能性があるので、標本は大きな母集団に関する情報を得る手段としてはさらに役に立たなくなる。

 

確率標本抽出

 

確率標本抽出では、母集団のすべての要素の標本に選ばれる確率がわかっている。

 

非確率標本抽出よりも実施するのが複雑であるが、標本から得た結果を対象となる母集団に一般化できるので、研究者は確率標本抽出の方を望む。

 

母集団から確率標本を抽出するには、母集団から要素を特定して抽出できるようにある種の抽出枠を研究者が考案する必要がある。

 

母集団が学校に入学した生徒の場合、入学生全員のリストは抽出枠としての役割を果たす。

 

あまり最適でない抽出枠を使わなければいけない場合もある。

 

例えば、電話で実施する調査に電話帳や使用中の電話番号ブロックを利用する場合、どちらの種類の電話抽出枠でも問題となるのは、電話サービスを利用していない人は標本を抽出する母集団に入らないが、対象となる母集団には入る可能性があることだ。

 

また、電話帳に載っていない電話番号を持つ人や携帯電話サービスだけの人もこのような手法を使って抽出した電話標本から除外されるが、対象となる母集団には含まれる可能性がある。

 

分析時に重み付けやその他の手法を使い、調査標本の結果を対象となる母集団に適用できるようにすることができる。

 

最も基本的な種類の確率標本抽出は、単純無作為抽出(SRS : Simple Random Sampling)である。

 

SRSでは、あるサイズの標本はすべて選択される確率が同じである。

 

特定の学校に通う生徒50人の無作為標本を抽出したいとしよう。

 

生徒のリストを取得し、そのリストから乱数表や乱数発生器を使って無作為に50人を選ぶ。

 

リストは母集団全体の一覧を表しており、標本に入れる人の選択は完全に無作為なので、どの生徒も標本に選ばれる確率は同じであり、どんな生徒の組合せでも選ばれる確率が同じである(この例では、サイズ50のすべての標本が同じ確率)。

 

ほとんどの場合、SRSはあらゆる種類のサンプリングの中で最も望ましい統計的性質(パラメータ推定値の最小信頼区間など)があり、分析に必要な手続きが最も簡単である。

 

しかし、SRSは一部の状況では実施が不可能または極めてコストがかかる場合があるので、SRSが不可能なときや現実的でないときのために別の確率標本抽出法が開発されている。

 

 

系統的標本抽出

 

系統的抽出はSRSに似ている。

 

系統的標本を抽出するには、母集団のリストなどの一覧が必要である。

 

抽出したい標本のサイズを決め、数値対を計算する。

 

この方法で標本の選択方法が決まる。

 

母集団のサイズを標本に必要な被験者数で割って計算する。

 

母集団が500で標本サイズが25の標本を抽出したい場合には、500/25 = 20なのでN = 20である。

 

そして、1からZの間から開始番号を無作為に選び、開始番号を衣す被験者とそれ以降番目ごとの被験者を標本に入る。

 

1,000の母集団から標本サイズが100の無作為標本を抽出したいとしよう。

 

1から10の問の番号を無作為に選ぶ。

 

その番号の被験者とそれ以降10番目ごとの被験者を選ぶ。

 

無作為に選んだ番号が7の場合、標本には7番目の被験者、17番目、27番目と続き997番目の被験者までが入る。

 

系統的抽出法は、母集団が時間とともに増加し、母集団のあらかじめ決まったリストがない場合に特に便利である。

 

例えば、来年に出廷する人を調査したいとする。

 

調査の開始時には、誰が出廷することになるかわからないため、前年の訴訟件数に基づいて対象となる母集団を推定し、標本サイズを決め、計算する。

 

そして、出廷した人の順序リストを人手し、無作為な開始点を選び、その無作為な開始点に対応する人とそれ以降の、X番目ごとの出廷した人を選択する。

 

無作為な開始点を10に決めた場合、10番目の人、24番目の人、38番目の人といったように希望の標本サイズになるまで調査する。

 

系統的抽出を使うときの注意点として、無作為の開始点との値に対応するデータが周期的になっていないようにしなければいけない。

 

例えば、法廷の特定の時間や日付が特定の種類の訴訟に予約されており、洲始点と、Zの組合せからその時間に出廷予定の大を選択する可能性がない場合、その標本は出廷する全員からの無作為選択ではなくなる。

 

複雑無作為標本抽出

 

複雑無作為標本には多くの種類がある。

 

複雑無作為標本は、SRSよりも1層以上の複雑さが課せられる確率標本抽出法を表す包括的用語である。

 

層別標本では、対象となる母集団を共通する特徴によって重複しないグループ(層)に分割する。

 

このような特徴は、人間では性別や年齢などになる。

 

都市では人口規模や政府の形態、病院では管理形態やベッド数などになる。

 

各層の比較やサブグルーブの特徴の推定が主な調査目的の場合には、層別抽出を選ぶのが適している。

 

層別抽出は、対象となる各層からの適切なサンプリングを保証するように設計できるからである。

 

例えば、SRSを使って抽出した標本には、鳥齢者の特徴を正確に推定したり中年層と比較したりするのに十分な数の高齢者が集まらない可能性がある。

 

それに対し、層別標本では高齢者をオーバーサンプリングするように設計し、後にオーバーサンプリングを補正するように標本を統計的に調整できる。

 

クラスター標本では、あらかじめ存在するグループを使って母集団をサンプリングする。

 

この手法は、対面面接や物理的検体(血液検体など)の収集が必要な全国調査でよく使用される。

 

なぜなら、面接のために調査員をバージニア州ラッカーズビルに1人、ネブラスカ州シヤドロンに1人、アラスカ州ハローに1人などと送るのは、大幅に費用がかかるからである。

 

より経済的な方法は、複数のレベルの無作為選択を持つサンプリング計画を立てることである。

 

全国レベルでは、地理的地域、その地域内の州、その州内の都市という順に個々の世帯や世帯内の個人まで選択するクラスター抽出計画を考案できる。

 

クラスター抽出では、単位内でクラスター化される対象が(例えば、都市内の世帯や州内の都市) SRSで選んだ対象よりも似かよる傾向があるため、正確性が下がる。

 

この正確性低下の埋め合わせとして、通常はクラスター抽出による費用がかなり節約できるのでより大規模な標本を収集できる。

 

クラスター抽出は、サイズに比例した抽出手法と組み合わせることもできる。

 

例えば、小学生の標本を抽出したいとする。

 

小学生の全国リストはないが(少なくとも米国にはない)、すべての小学校のリストなら作成でき、各学校には生徒のリストがあるだろう。

 

したがって、無作為に学校を選び(場合によっては多段階手順で)、選択した学校から無作為標本を抽出する。

 

各学校にはさまざまな数の生徒が通っているので、この情報をサンプリング計画に盛り込み、小規模な学校から不釣合いな数の生徒を選ばないようにしたい(小規模な学校の方が多いが、大規模な学校に比べて生徒数が少ない)。

 

そこで、抽出した学校から就学生徒数に基づいて異なる数の生徒を選ぶ。

 

つまり、就学者数が400人の学校からは200人の学校より2倍の生徒を選ぶ。

 

このようにすると、最終的な標本には大規模な学校と小規棋な学校の両方を代表する割合の生徒が入る。

 

 

推測統計における標本抽出には、大きく分けて非確率標本抽出と確率標本抽出の二つの方法がある。非確率標本抽出は、多くの場合、手軽で研究者にとっては時間やコストの面で利便性が高いが、その代償として統計的に信頼性の低い結果をもたらす可能性がある。この方法は標本を統計的に補正する手段がなく、母集団に関する推論を行う際に代表性を欠くため、結果の一般化が困難になる。例えば、志願者標本は非確率標本抽出法の一つであり、研究者が募集広告を出して集まった被験者を標本とする。この方法は比較的容易に被験者を集めることができるため、時間や費用を節約できるメリットがあるが、集まった志願者が必ずしも母集団を代表するとは限らない。そのため、このような標本に基づく結果を母集団に一般化することには限界がある。志願者標本は、特に母集団から無作為に標本を選ぶのが難しい状況では有用であり、例えば違法薬物使用者を対象とした研究などでは志願者標本が適しているとされる。一般化の能力には限界があるとはいえ、志願者標本から得られた情報は研究の初期段階で役立つことがある。例えば、ある地域内での薬物使用の実態を把握するために志願者から情報を収集し、そのデータを基に地域全体を対象にした無作為標本調査の設計に役立てることができる。しかし、志願者標本の結果を標本全体の外に一般化する場合には限界がある。恣意的標本もまた一般的な非確率標本抽出法であり、研究者が自分の判断で標本を選ぶ方法である。この手法も志願者標本と同様に、初期段階での情報収集には役立つが、標本を超えた一般化には向いていない。例えば、特定のショッピングモールで買い物をしている人を調査対象にして、その地域全体の買い物習慣を把握しようとすることが挙げられる。50人の買い物客を調査して得られたデータが、その地域の住民全体の買い物傾向を代表しているとは限らないため、慎重な解釈が求められる。しかし、恣意的標本による情報は、広範な母集団の標本設計に役立つこともある。割り当て抽出は、非確率標本抽出法の一種であり、研究者やデータ収集者が標本内の人口層を特定の割合で選ぶように指示される方法である。例えば、25人の男性と25人の女性から回答を得るよう指示されることがある。この方法は恣意的抽出よりも若干改善され、標本内の異なる人口層を代表させることができる。しかし、割り当て抽出も非確率標本抽出法であるため、標本の人々が母集団全体を代表するかどうかを確かめる方法はなく、選択バイアスが生じるリスクがある。例えば、割り当て標本には男性と女性の代表が含まれることが保証されるが、その標本の人々が母集団全体の男性や女性を代表しているかは不明である。データ収集者は、自分と最も親しく接することができる人や見た目に親しみやすい人を選びがちであり、このようなバイアスは標本の代表性を損なう原因となる。非確率標本抽出法の利便性は捨てがたいが、母集団全体への一般化を意図する研究では、確率標本抽出の方が信頼性が高い。確率標本抽出法は母集団の要素が標本に選ばれる確率が明示されており、統計的に結果を母集団に一般化できるため、研究者が好む方法である。この方法を実施するには、母集団から要素を選び出すための抽出枠が必要である。例えば、学校に通う生徒の母集団を対象とした場合、在籍している生徒全員のリストが抽出枠として用いられることになる。時には完全な抽出枠を用意できず、部分的な枠を使うこともある。例えば、電話調査に電話帳を使用すると、電話を持っていない人や電話帳に記載されていない電話番号を持つ人が母集団に含まれているにもかかわらず標本に含まれないことがある。これにより、母集団の一部を標本に含められないリスクが生じる。重み付けや補正を行うことで、標本の結果を母集団に適用できるよう調整することが可能である。確率標本抽出の基本的な手法として、単純無作為抽出(SRS)が挙げられる。この方法では、母集団内の要素が等確率で標本に選ばれる。例えば、ある学校の生徒50人を無作為に抽出したい場合、生徒リストから乱数を用いて50人を選び出す。この方法は理論的に最も望ましい統計的性質を持ち、信頼性の高い結果をもたらす。ただし、SRSは大規模な調査や特定の条件下ではコストや実行可能性に制限があるため、他の確率標本抽出法が用いられることもある。系統的標本抽出はSRSに似た方法で、母集団から等間隔で標本を選ぶことで効率的にサンプリングできる。母集団のリストを使い、標本サイズに合わせて間隔を計算し、1から間隔の間で無作為に開始点を選ぶ。系統的標本抽出は、母集団が動的であり、リストが事前に確定されていない場合に特に有用である。ただし、サンプリング間隔と母集団の周期性が一致する場合にはバイアスが生じるリスクがある。例えば、特定の日に特定の種類のデータが偏って集まる場合、そのサンプリングが無作為選択ではなくなる可能性がある。複雑無作為標本抽出は、層別標本やクラスター抽出を含む複数の手法を組み合わせたもので、SRSに比べて複雑なサンプリング計画が必要である。層別標本抽出では、母集団を共通の特徴で層に分け、各層から適切に標本を選ぶことで、層間の比較や特定の層に関する推定を行いやすくする。クラスター標本抽出は、調査対象が大規模である場合や対面調査が必要な場合に有用で、事前に存在するグループを無作為に選んで調査する。これにより、例えば特定の都市や地域内で調査員を配置し、複数の家庭や個人を調査できるようにする。クラスター抽出はSRSよりも効率的だが、単位内の対象者が似通っているため精度が低下する可能性がある。費用対効果を考慮しつつ、標本の規模を拡大して補正するのが一般的である。クラスター抽出は規模に比例した抽出方法と組み合わせることも可能であり、例えば学校のリストから無作為に学校を選び、その中で無作為に生徒を選ぶようにする。これにより、大小の学校を含む母集団の代表的な標本を確保することができる。

 

推測統計における標本抽出の課題と工夫【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

推測統計における標本抽出の課題と工夫【ChatGPT統計解析】

推測統計における標本抽出の課題と工夫【ChatGPT統計解析】