Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における標本抽出方法2【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における標本抽出方法2【統計解析講義基礎】

統計学における標本抽出方法2【統計解析講義基礎】


統計学における標本抽出方法2【統計解析講義基礎】

 

日本のように住民基本台帳や整った選挙人名簿を活用しがたい国や地域では、ランダム・サンプリング(統計的無作為標本抽出)は容易ではありません。

 

また、日本でもプライバシー保護の問題などから、住民基本台帳や選挙人名簿を閲覧できない場合があります。

 

さらに、全国で「ランダム・サンプリング」と称した調査でも、一部の自治体では名簿が閲覧できず、他の抽出法で代用している場合があります。

 

ランダム・ルート・サンプリング

 

このサンプリングは、いかなるバイアスがあるのか必ずしも明確でなく統計学的には好ましくないといわれています。

 

しかし実際には、海外の多くの国で用いられています。

 

同じランダム・ルート・サンプリングでも国や調査機関により多様で、以下は一般論としての説明になります。

 

全国調査では、地点抽出までは日本のランダム・サンプリングと同様ですが、選ばれた各地点では、回答者をランダム・ルート・サンプリングします。

 

欧州では、比較的小さな道にまで名称がついていて、その地図やリストが発行されています。

 

その地図やリストの中から統計的にランダムに抽出した道のスタート店から道に沿って3軒毎など、系統的に住民を訪問し、あらかじめ決めた属性(性や年齢など)と数の回答者を得ます。

 

「道」ではなくとも、地図や地点リストから、「スタート点」を統計的にランダムに抽出することもあるでしょう。

 

伝統的に欧州では「ランダム・ルート・サンプリング」、アメリカでは「ランダム・ウォーク」、そしてインドでは「ライト・ハンド・メソッド」(道に沿って右回りに歩く)と呼んでいます。

 

この方法では、あらかじめ計画した回答者数が取れるまで続けるので、見かけ上は回収率が100%となりますが、訪問世帯総数を考えると、ランダム・サンプリング流に考えた回収率は、1990年代のイタリア・オランダ調査では30〜40%程度と報告されています。

 

最近の日本の実験調査では20%を切ることが多いとされています。

 

エリア・サンプリング

 

国勢調査データなどから地域ごとの人口はわかる場合、第1段抽出として、人口に確率比例した地点抽出は可能です。

 

第2段の個人抽出の方法を考案する必要があります。抽出された各地点で既存の住宅地図が手に入れば、それを利用します。

 

それもない場合は、各地点周辺の現場を歩いて地図を作製します。

 

各地点で統計的にランダムに選ばれたスタート点から、例えば3軒おきなど系統的に、あらかじめ定められた数の世帯を抽出します。

 

その世帯で、各世帯の調査対象となる人の中で、一番最近、誕生日を迎えた人を選択する誕生日法や、各世帯の調査対象となるすべての人をリストにし、年代順に並べ、乱数を発生させて選択するKish法などで、個人を抽出します。

 

現地積み上げ法

 

ランダムルート・サンプリングやエリア・サンプリングでは、各世帯の抽出確率は等しいが、各個人の抽出確率は各世帯で調査対象となるすべての人の数に反比例します。

 

したがって、全体で個人が等確率で抽出されたのと同じにするためには、理論上は、相対的ウェイト(世帯人数)をかけ補正することになります。

 

ただし問題は、この「ウェイト補正」は計画標本から100%の有効回収率でデータが得られた場合を想定していますが、現実には、はるかに低回収率であることが多いので、むしろバイアスを助長する危惧があります。

 

この問題を避ける方法が、林知己夫により提案されました。

 

それは、第2段の世帯抽出の際に、まず、各世帯での調査対象となる人数を聞き、それを積み重ねていく、例えば、初めから「2人おき、3人おき」の繰り返しで、該当する個人が、その世帯にいれば抽出しますが、いない場合は人数の情報を積み重ねただけで、次の世帯へ行きます。

 

このようにすれば、個人抽出のレベルでも等確率になります。

 

しかし、実際には、世帯人数だけを聞いて「質問調査」をしないで帰る世帯が生じ、不審に思われて警察へ通報されたり、近隣全体での調査協力率が落ちたりする懸念が大きいです。

 

これは、熟練の調査員でないと対応できない危惧があり、また、最近の世帯レベルでの調査協力率から考えても、ほかのバイアスの方がはるかに大きく、理論的な「個人レベルの等確率抽出」に固執するか、調査員の負担を減らす方法を用いる方が現実的かは検討の余地があります。

 

割り当て法(クォータ法)

 

割り当て法も、地点抽出まではランダム・サンプリングと同じですが、各地点で回答者を選ぶときに、あらかじめ指定した属性(性別、年齢層、人種など)をもつ回答者を国勢調査などを参考にし、偏らないように選択します。

 

指定されていない属性(例えば学歴、収入、宗教など)についてどのような偏りがあるかは、あらかじめわからないので、指定された属性だけが調査回答分布に影響があると断定される場合を除くと、回答データがそのまま母集団を代表すると考えるのは問題があります。

 

学歴、収入、宗教などもあらかじめ指定した割り当てをすると、調査の手続きのコストが大きくなります。

 

1936年のアメリカ大統領選挙予測では、統計的標本抽出ではない「リテラリー・ダイジェスト社」の大量データに対して、「ギャラップ社」は「割り当て法」に基づき、わずか3,000人分の調査データの基づき、ルーズベルトの勝利を当て、統計的標本抽出の価値を証明しました。

 

しかし、1948年の大統領予測では、ギャラップ社を含み大半の調査会社が割り当て法を用いて失敗しました。

 

この原因としては、戦後の農村住民の都市移動を過小評価していた標本の偏りが指摘されました。

 

調査において母集団を適正に反映する標本抽出の重要さを示唆しています。

 

しかし、いずれにせよ、各国は単に統計的理論のみではなく、各国の歴史や政治などの社会的背景のもとに世論調査の方法を開発してきたことを了解し、それぞれの差異を尊重すべきと考えます。

セミナー詳細こちら                    解析ご相談こちら


 

統計学における標本抽出方法2【統計解析講義基礎】

統計学における標本抽出方法2【統計解析講義基礎】

統計学における標本抽出方法2【統計解析講義基礎】