社会調査の革新!標本抽出で見える全体像【ChatGPT統計解析】
社会調査でコストと時間を節約するため、集団全体ではなく、集団を代表する一部を選んで調査する統計的標本抽出が行われます。この方法では、集団全体を「母集団」と呼び、選ばれた一部を「標本」と称します。標本からのデータに基づき母集団全体を推定しますが、この過程で生じる誤差(標本抽出誤差)の理解と管理が重要です。統計的には無作為抽出を基本とし、標本の選び方により誤差の大きさが異なります。多段抽出や層別抽出などの方法があり、これらは調査コストの削減や標本抽出誤差の低減を目的とします。日本では、統計数理研究所の指導のもと、日本人の国民性調査などで高度な標本抽出方法が用いられています。これらの方法は、社会調査の精度向上に貢献しています。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
ユニバース、母集団、標本
社会を調査しようとする場合、例えば国勢調査のように集団の全員(日本に居住する人全体)を調べると多大なコストがかかり、データを収集、整理し、報告書を作成するまでに長期を要します。
そのため、コストや時間を考慮して、集団全体から一部の集団を、全体の縮図となるように、あるいは全体を代表するように適切に選び出し、その一部集団の調査結果をもって、集団全体を推定することが行われます。
これを統計的標本抽出調査といい、通常は本来の集団全体を「母集団」、選ばれた一部集団を「標本」とよびます。
数学的に厳密にいうと、調査対象集団を「ユニバース」、それに確率空間を導入したものが母集団であり、それから統計的標本抽出した部分が、1つの標本となります。
例えば、「世論調査の内閣支持率」の場合は、日本の有権者全体が「ユニバース」であり、そのユニバースの内閣支持の意見全体に確率の計算が整合するように数学的構造を導入したものが「母集団」となります。
有権者全体から一部の集団を取り出したとき、その集団における内閣支持率が「標本における内閣支持率」となり、母集団の内閣支持率を推定する統計量となります。
標本抽出誤差
一部の集団から全体を推定するには、その推定量と真の値(母集団全体を調査した場合の結果)との間のずれ(誤差)を評価する理論と、誤差を少なくする実践的方法が重要となります。
統計的単純無作為抽出では、母集団全員(N人)のリストがあることを想定し、あらかじめ定めた標本サイズ(n人)に対応して、数学的にn個の重複しない乱数を発生させ、それに対応するものを抽出し、1つの標本とします。
そのような操作で、いくつもの標本が得られますが、調べるべき統計量(例:母集団の内閣支持率p)の推定値(観測値)p’が、各標本では少しずつ異なります。
その統計的分布(ちらばり)の標準偏差の2倍をもって、「標本抽出誤差」と称します。
これは正確には95%信頼区間を表します。
E=±2√p(1-p)/n
これはp=0.5 のとき最大となるので、1つの調査票のたくさんの調査項目について、大まかな目安として±√1/nを「誤差」として、それ以下の差では統計的には意味がある差とはいえないと解釈することが多いです。
例えば、n=10,000人のときは、±0.01、すなわち±1%となります。「標本抽出誤差」とは別に、データ入力の間違いや偽造データの混入などによる「非標本抽出誤差」の推定も重要ですが、これは実験調査などで経験的に推定されるものです。
多段抽出と層別抽出
実際の世論調査などでは、国民総背番号リストは用いることができないので、まず全国からいくつかの地点を抽出し、次に各地点で住民基本台帳や選挙人名簿から無作為(乱数を用いて選ぶ)に、あらかじめ定められた人数の回答者を抽出して調査します。
地点は、国勢調査データなどをもとに全国を国政選挙の投票区などに分割し、人口比例で抽出します。
これを二段抽出といいます。
面接調査の場合、全国から抽出する計画標本サイズがn=1,000の場合、例えば100地点で各地点10人ずつの抽出と、200地点で各地点5人ずつの抽出では、前者の方が少ない地点の近辺を回るだけなのでコストは低いですが、標本抽出誤差は大きくなります。
さらに、2段以上の多段抽出も考えられます。
面接法、郵送法、名簿に基づく電話法、電話RDD法などの調査モードや、データの有効回収率にも依存しますが、一般に多段抽出は調査コストを低減させますが標本抽出誤差は大きくなります。
他方で、大都市、都市部、郡部などの人口密度や地域性を考慮して、地点抽出の際に、それぞれの地域に対応する抽出地点数を確率的に調整することもあります。
これは、回答分布について地域間の差異(分散)は大きく、各地域内の差異は少なくなるように地域を層別しておいて地点を抽出すると、標本誤差が少なくなるためです。
これを「層別抽出」といい、事前の作業コストは高まりますが、一般に標本抽出誤差を減少させる効果があります(厳密にいうと、層別により誤差が高まることはありません)。
日本人の国民性調査の事例
日本の全国レベルの本格的な標本抽出調査では、戦後民主主義を発展させるための重要な方策として、官民の調査機関が統計数理研究所の指導を受けながらアメリカの理論書をもとに、日本の現状に即した標本抽出法が開発されました。
比較的整った住民基本台帳や選挙人名簿が活用できる日本では、理想に近い統計的無作為抽出が可能で、1948年の「日本人の読み書き能力」調査において、小田原市の住民全体の調査結果(真の値)とそれから統計的標本抽出した結果を比較して、標本抽出誤差の推定の正確さを確認したといわれています。
また、読み書き能力調査で開発された調査方法を活用して、統計数理研究所では1953年以来、日本人の国民性調査を継続しています。
この調査では層別3段階標本抽出が用いられています。
2008年の第12次調査では、計画サンプルサイズを全国6,400人としました。まず全国の市町村を地方性と人口規模を考慮し層別し、各層より合計400地点を選びます。
その400地点は、まず市町村を確率比例抽出し(第1段)、選ばれた各市町村から投票区を確率抽出します(第2段)、最後に、抽出した投票区の有権者名簿より、その地点に割り当てて人数c(平均16)のサンプルを等間隔抽出で選びます(第3段)。
具体的には、1から投票区の名簿の人数nまでの範囲の乱数xを発生させ、名簿の最初からx番目の人を抜き出します。
次にそこからn/c番ごとに1人ずつ抽出します(途中で名簿の最後にきてしまったら、最初に戻って続けます)。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
統計的標本抽出方法について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
統計的標本抽出とは、大きなデータから少しのデータを選ぶ方法です。この「少しのデータ」をうまく選べば、大きなデータ全体の特徴を知ることができます。標本抽出にはいくつか方法があります。
単純無作為抽出:データからランダムに選ぶ方法。くじ引きのように、全てのデータが選ばれるチャンスが等しいです。
層別抽出:データを似ているグループに分け、その中からランダムに選びます。例えば、学生を学年ごとに分けてから抽出する方法です。
系統抽出:リストから一定の間隔でデータを選びます。例えば、名簿の10人に1人を選ぶ方法です。
集団抽出:データを小さいグループに分け、そのグループごとにランダムに選びます。例えば、クラス全体ではなく、クラスの中の数グループだけを調べる方法です。
うまく標本を選べば、時間やコストをかけずに大きなデータの特徴を捉えることができます。
関連リンク