層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】

層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】

層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】
層化無作為抽出法では、母集団をまず均質な下位集団に分け、各層から無作為に標本を抽出して代表性を高める。年齢、性別、所得などの属性で層化し、患者リストや学生名簿を用いる場合もある。比例層化抽出法は母集団の層の比率に合わせて標本を選び、不均衡な層間比較では不均衡標本抽出を用いて調整が必要である。この方法により、少数の層からも信頼性のあるデータを得ることが可能だが、層に関する情報が不足すると使用が難しい。精度の高い代表性を保つための労力が単純無作為抽出法よりも必要である。

層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】

 

 

層化無作為抽出法

 

層化無作為抽出法(stratified random sampling ;層別無作為抽出法)では,母集団を,はじめに2つないしそれ以上の層に分ける.

 

割り当て標本抽出法の場合のように,層化抽出法の目的は,標本の代表性を高めることにある.

 

層化抽出デザインは,適切な数の要素を無作為に選び出せるような均質な下位集団に,母集団を分ける.

 

層化は,年齢,性別,所得水準などの人口学的属性に基づくことが多い.

 

層化する属性を事前にわかっていることが必要で,簡単に識別できないことがある,というむずかしさがある.

 

電話帳を使う場合,ある人の性別を推測するのは危険であろうし,年齢,民族,その他の個人的な情報を層化変数として使うことはできないだろう.

 

患者リスト,学生名簿,組織人名録などには,意義ある層化のための情報が含まれていよう.

 

割り当て標本抽出法では,研究者が候補となる対象に質問して,特定の層に合うかどうかを判断できるので同じ問題は起こらない.

 

しかし,層化抽出法では,無作為抽出の前に,その人の状況を知らなくてはならない.

 

層化標本をつくるためにもっともよくもちいられる手順は,1つの層に属する要素をグループにまとめ,そのなかから必要な数の要素を無作為に抽出するやり方である.

 

研究者は,それぞれの層から同数の要素を抽出することもできるし,または後述する理由で,異なる数の標本を抽出することもできる.

 

25名の男性(1から25番)と25名の女性(26から50番)からなると仮定しよう.

 

性別を層化変数としてもちいると,このリストの前半部分から10名と後半部分から10名を無作為に抽出すれば,10名の男性と10名の女性からなる標本を得ることができる.

 

結局のところ,この例では,リストの半分ずつからそれぞれ10名の標本が抽出されたが,これは単に偶然によるものである.

 

たとえば,一方から8名,他方から12名を抽出するということもよくあるだろう.

 

層化抽出法は,母集団のさまざまな部分の適切な代表性を保証しうる.

 

通常,層化変数によって,母集団は不均等な下位集団に分けられる.

 

たとえば,米国国民という母集団を層化するのに人種をもちいた場合は,白人の下位集団は,アフリカ系アメリカ大やその他の有色人種の下位集団よりも大きくなる.
研究者は,比例層化抽出法(proportionate stratified sampling)をもちいて,母集団の層の大きさに比例して,対象を選ぶことができよう.

 

看護学校の学生の母集団が,アフリカ系アメリカ人の学生10%,ヒスパニックの学生10%,白人の学生80%から構成されていたとすれば,人種/民族的背景を層化変数として, 100名の学生の比例層化抽出標本は,各層からそれぞれ10名,10名,80名の学生で構成されることになろう.

 

研究者の関心が層のあいだの差を理解することだとすれば,比例抽出法は,その比較には十分な数といえない.

 

前述の例では,たったの10例に基づいて,ヒスパニックの看護学生の特性について結論を出すことなどできるだろうか.

 

それは賢明ではないだろう.

 

このため,研究者は,著しく不均等な大きさの層を比較しようとする場合は,不均衡標本抽出デザイン(disproportionate sampling design)を適用することが多い.

 

 

同じ例で,標本抽出の比率を,アフリカ系アメリカ人学生20名,ヒスパニックの学生20名,白人の学生60名とすることもできよう.

 

このデザインでは,2つの少数人種/民族をさらに適切に代表することになる.

 

しかし,不均衡標本抽出法をもちいるときには,母集団全体の数値をもっともよく推定できるように,データに調整を加える必要がある.

 

この調整過程は,重みづけ(weighting)という簡単な算術計算であり,標本抽出法についての教科書に説明されている.

 

層化無作為抽出法をもちいれば,最終的な標本の精度と代表性を高めることができる.

 

構成員数が比較的に小さい下位集団について信頼できる情報を得たい場合,層化によって,その層のオーバーサンプリングをして,標本となる十分な数の事例を含めることができる.

 

しかし,重要な変数に関する情報が得られないときは,層化抽出法を使えないことがある.

 

さらに,層化抽出法では,複数のリストから標本を抽出しなければならないので,単純無作為抽出法よりも労力が必要である.

 

層化無作為抽出法の例

 

バス,シングルトン,ストライカス,スティーヴンソン,マクドナルド,ウィリアムズは,産科を備えた病院のどの程度が,妊婦のB型肝炎検診についての方針をもっているかを判断する調査を行った.

 

968の病院の層化無作為標本が選ばれた(病床数と医学部との提携関係によって層化した).

 

集群抽出法(クラスター抽出法)

 

多くの母集団では,すべての要素をリスト化することは不可能である.

 

たとえば,米国のフルタイムの看護学生を母集団とした場合,単純無作為標本または層化無作為標本を抽出する目的でリス卜をつくり,それに番号を振る作業は困難だろう.

 

このやり方で学生の標本をつくろうとすると,結果的には1つの学校からわずか1名か2名だけの学生を抽出することになるので,法外に費用もかかるだろう.

 

個人面接をするとすれば,面接者は,全国に散在している学生に会うために旅行しなければならないだろう.

 

大規模な調査では,単純無作為標本抽出または層化無作為標本抽出をもちいることはほとんどなく,通常,集群抽出法をもちいる.

 

 

層化無作為抽出法は、調査や研究において母集団の多様な部分を均等に反映させるための重要な手法のひとつである。層化無作為抽出法(stratified random sampling)とは、まず母集団をいくつかの異なる層に分け、各層から無作為に標本を抽出する方法である。これは、単純無作為抽出法のように母集団全体からランダムに標本を選ぶのではなく、母集団を特定の基準で区分けし、その区分に応じて代表的な標本を得ることが目的である。例えば年齢、性別、所得、居住地域、教育水準、民族など、母集団の特性を反映する要素に基づいて層を形成することが多い。これにより、特定の属性が調査結果に十分に反映され、母集団全体の代表性を高めることができる。層化無作為抽出法の主な目的は、母集団内の異なる層の特徴を均等にサンプルに含めることであり、標本の代表性を向上させることにある。標本が母集団を正確に反映することで、調査結果の信頼性が高まるため、多くの研究でこの方法が採用されている。層化抽出法を行う際には、まず層化するための属性、すなわち年齢や性別などの層化変数を明確にし、それに基づいて母集団を均質な下位集団に分割する必要がある。これにより、各層から無作為に標本を選び出すことが可能になる。層化変数を設定する際には、調査や研究の目的に応じて、代表性を保ちたい属性を選定することが重要である。しかし、層化変数として使用する情報が事前に得られない場合や、層化に必要な情報が存在しない場合、層化無作為抽出法は適用が難しくなる。例えば、電話帳などの一般的なリストを使う場合、ある人物の性別や年齢、民族などの詳細な情報は記載されていないことが多いため、層化が困難である。この場合、調査に必要な特定の属性を満たすサンプルを取得するために、別の情報源を利用する必要がある。また、患者リストや学生名簿、企業の社員名簿などのリストには、層化抽出に適した情報が含まれている場合が多く、こうしたリストを用いることで、効率的かつ効果的に層化無作為抽出法を適用できる。層化無作為抽出法は、層ごとに同数の標本を抽出することもあれば、層ごとに異なる数の標本を抽出することもある。この異なる数の標本を抽出する方法は、後述する不均衡標本抽出法(disproportionate sampling design)であり、層ごとの大きさや関心の強さに応じて適用される場合がある。具体例として、25名の男性と25名の女性からなるリストがあると仮定し、性別を層化変数として選択する場合、このリストの前半から10名、後半から10名を無作為に抽出すれば、10名の男性と10名の女性からなる標本が得られる。この方法により、特定の性別に偏ることなく、標本の代表性を保つことができる。この例では、偶然にもリストの半分ずつから10名が抽出されたが、場合によっては一方から8名、もう一方から12名が抽出されることもある。層化無作為抽出法は、母集団のさまざまな部分が標本に適切に反映されるため、異なる層の比較や、特定の層に属する人々の行動や意識の違いを調査するのに適している。例えば、アメリカ国民を対象とした調査において人種を層化変数とする場合、白人の集団が他の有色人種の集団よりも大きくなることが多い。このような場合、比例層化抽出法(proportionate stratified sampling)を用いることで、各層の大きさに比例してサンプルを抽出することができる。例えば、看護学校の学生集団がアフリカ系アメリカ人10%、ヒスパニック10%、白人80%で構成されている場合、人種や民族的背景を層化変数として用いて比例層化抽出を行うと、各層から10名、10名、80名の割合で標本を抽出することができる。この方法により、母集団全体の構成を忠実に再現する標本が得られる。しかし、研究者が層間の差異に関心がある場合、比例層化抽出法では各層の標本数が少なくなり、分析に十分なデータが得られない場合がある。例えば、10名のヒスパニック系看護学生の特性について正確な結論を出すためには、より多くのデータが必要となるため、比例層化抽出法では限界が生じる。このような場合、不均衡標本抽出法(disproportionate sampling design)を用いて、特定の層においてサンプル数を増加させることが一般的である。不均衡標本抽出法では、例えばアフリカ系アメリカ人20名、ヒスパニック20名、白人60名といったように、少数人種を代表する標本を多く抽出することで、層間の比較に十分なデータを確保することが可能となる。しかし、不均衡標本抽出法を使用する際には、母集団全体を正確に推定するためにデータに調整を加える必要がある。この調整は「重みづけ」(weighting)と呼ばれ、標本に基づいて母集団全体の数値をより正確に推定するための算術的な補正である。重みづけによって、標本の偏りを是正し、調査結果の代表性を高めることができる。また、層化無作為抽出法は、比較的小規模な下位集団についても信頼性のある情報を得るための手段として有用である。たとえば、少数の層について十分なデータを得るために、その層をオーバーサンプリングし、十分な数のサンプルを確保することができる。こうしたオーバーサンプリングにより、サンプルサイズの小さい層でも信頼性の高いデータを得ることができる。しかし、層化無作為抽出法を適用する際には、事前に層化変数に関する情報が得られない場合や、層に関する情報が不十分な場合、層化抽出法の実施が難しくなることがある。さらに、層化抽出法では複数のリストから標本を抽出する必要があるため、単純無作為抽出法よりも手間がかかり、時間や労力が必要とされる。層化無作為抽出法の実例として、バスやシングルトンらによる産科病院のB型肝炎検診に関する調査が挙げられる。この調査では、968の病院から層化無作為標本を選び出し、病床数や医学部との提携関係によって層化を行った。このように、層化無作為抽出法を用いることで、母集団の構造や層ごとの特性を反映した標本が得られるため、調査結果の精度や信頼性が向上する。また、集群抽出法(クラスター抽出法)は、すべての要素をリスト化することが困難な場合に用いられる。

 

層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

 

層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】

層化無作為抽出法で精度UP!代表性の高いデータ収集法【ChatGPT統計解析】