世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】

世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】

世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】
日本では、住民基本台帳や選挙人名簿を用いたランダムサンプリングがプライバシーの問題等で難しい場合があり、他の標本抽出法が代用されることがある。海外では、ランダムルートサンプリングやエリアサンプリングが広く用いられており、地点抽出後のランダムな回答者の選定方法には国や地域によって差がある。これらの方法は、統計的に完全なランダムサンプリングに比べてバイアスの可能性が指摘されているが、実際には多くの国で採用されている。エリアサンプリングでは人口データを基に地点を選定し、地図や現地調査をもとに世帯を選び出す。一方、割り当て法では、あらかじめ指定した属性を基に回答者を選定するが、これは指定されていない属性に対するバイアスの可能性を含む。調査の正確性は母集団を適切に反映する標本抽出の方法に依存するが、実際には各国の社会的背景に応じて調査方法が開発され、適用されている。

世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


 

標本抽出法

 

日本のように住民基本台帳や整った選挙人名簿を活用しがたい国や地域では、ランダムサンプリング(統計的無作為標本抽出)は容易ではありません。

 

また、日本でもプライバシー保護の問題などから、住民基本台帳や選挙人名簿を閲覧できない場合があります。

 

さらに、全国で「ランダムサンプリング」と称した調査でも、一部の自治体では名簿が閲覧できず、他の標本抽出法で代用している場合があります。

 

標本抽出法には様々な方法があります。

 

ランダムルートサンプリング

 

このサンプリングは、いかなるバイアスがあるのか必ずしも明確でなく統計学的には好ましくないといわれています。

 

しかし実際には、海外の多くの国で用いられています。

 

同じランダムルートサンプリングでも国や調査機関により多様で、以下は一般論としての説明になります。

 

全国調査では、地点抽出までは日本のランダムサンプリングと同様ですが、選ばれた各地点では、回答者をランダムルートサンプリングします。

 

欧州では、比較的小さな道にまで名称がついていて、その地図やリストが発行されています。

 

その地図やリストの中から統計的にランダムに抽出した道のスタート店から道に沿って3軒毎など、系統的に住民を訪問し、あらかじめ決めた属性(性や年齢など)と数の回答者を得ます。

 

「道」ではなくとも、地図や地点リストから、「スタート点」を統計的にランダムに抽出することもあるでしょう。

 

伝統的に欧州では「ランダムルートサンプリング」、アメリカでは「ランダムウォーク」、そしてインドでは「ライトハンドメソッド」(道に沿って右回りに歩く)と呼んでいます。

 

この方法では、あらかじめ計画した回答者数が取れるまで続けるので、見かけ上は回収率が100%となりますが、訪問世帯総数を考えると、ランダムサンプリング流に考えた回収率は、1990年代のイタリア・オランダ調査では30〜40%程度と報告されています。

 

最近の日本の実験調査では20%を切ることが多いとされています。

 

エリアサンプリング

 

国勢調査データなどから地域ごとの人口はわかる場合、第1段抽出として、人口に確率比例した地点抽出は可能です。

 

第2段の個人抽出の方法を考案する必要があります。抽出された各地点で既存の住宅地図が手に入れば、それを利用します。

 

それもない場合は、各地点周辺の現場を歩いて地図を作製します。

 

各地点で統計的にランダムに選ばれたスタート点から、例えば3軒おきなど系統的に、あらかじめ定められた数の世帯を抽出します。

 

その世帯で、各世帯の調査対象となる人の中で、一番最近、誕生日を迎えた人を選択する誕生日法や、各世帯の調査対象となるすべての人をリストにし、年代順に並べ、乱数を発生させて選択するKish法などで、個人を抽出します。

 

現地積み上げ法

 

ランダムルート・サンプリングエリア・サンプリングでは、各世帯の抽出確率は等しいが、各個人の抽出確率は各世帯で調査対象となるすべての人の数に反比例します。

 

したがって、全体で個人が等確率で抽出されたのと同じにするためには、理論上は、相対的ウェイト(世帯人数)をかけ補正することになります。

 

ただし問題は、この「ウェイト補正」は計画標本から100%の有効回収率でデータが得られた場合を想定していますが、現実には、はるかに低回収率であることが多いので、むしろバイアスを助長する危惧があります。

 

この問題を避ける方法が、林知己夫により提案されました。

 

それは、第2段の世帯抽出の際に、まず、各世帯での調査対象となる人数を聞き、それを積み重ねていく、例えば、初めから「2人おき、3人おき」の繰り返しで、該当する個人が、その世帯にいれば抽出しますが、いない場合は人数の情報を積み重ねただけで、次の世帯へ行きます。

 

このようにすれば、個人抽出のレベルでも等確率になります。

 

しかし、実際には、世帯人数だけを聞いて「質問調査」をしないで帰る世帯が生じ、不審に思われて警察へ通報されたり、近隣全体での調査協力率が落ちたりする懸念が大きいです。

 

これは、熟練の調査員でないと対応できない危惧があり、また、最近の世帯レベルでの調査協力率から考えても、ほかのバイアスの方がはるかに大きく、理論的な「個人レベルの等確率抽出」に固執するか、調査員の負担を減らす方法を用いる方が現実的かは検討の余地があります。

 

 

割り当て法(クォータ法)

 

割り当て法も、地点抽出まではランダム・サンプリングと同じですが、各地点で回答者を選ぶときに、あらかじめ指定した属性(性別、年齢層、人種など)をもつ回答者を国勢調査などを参考にし、偏らないように選択します。

 

指定されていない属性(例えば学歴、収入、宗教など)についてどのような偏りがあるかは、あらかじめわからないので、指定された属性だけが調査回答分布に影響があると断定される場合を除くと、回答データがそのまま母集団を代表すると考えるのは問題があります。

 

学歴、収入、宗教などもあらかじめ指定した割り当てをすると、調査の手続きのコストが大きくなります。

 

1936年のアメリカ大統領選挙予測では、統計的標本抽出ではない「リテラリー・ダイジェスト社」の大量データに対して、「ギャラップ社」は「割り当て法」に基づき、わずか3,000人分の調査データの基づき、ルーズベルトの勝利を当て、統計的標本抽出の価値を証明しました。

 

しかし、1948年の大統領予測では、ギャラップ社を含み大半の調査会社が割り当て法を用いて失敗しました。

 

この原因としては、戦後の農村住民の都市移動を過小評価していた標本の偏りが指摘されました。

 

調査において母集団を適正に反映する標本抽出の重要さを示唆しています。

 

しかし、いずれにせよ、各国は単に統計的理論のみではなく、各国の歴史や政治などの社会的背景のもとに世論調査の方法を開発してきたことを了解し、それぞれの差異を尊重すべきと考えます。

 

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
ランダムサンプリングについて解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

ランダムサンプリングは、サイコロを振って出た目のように、偶然に任せてデータを選ぶ方法です。このやり方で、大きなデータの中から小さな「サンプル」というグループを作ります。ポイントは、選ばれるチャンスが全てのデータに平等にあること。これにより、選んだサンプルは大きなデータ全体の良いミニチュア版になります。例えば、1000人の生徒がいる学校から50人を選ぶとき、ランダムサンプリングだと、全生徒が1から1000まで番号をもらい、ランダムに50の番号を選びます。選ばれた番号の生徒がサンプルになります。この方法の良いところは、単純で公平だということ。悪いところは、たまたま偏ったサンプルが選ばれる可能性もあることです。でも、正しく行えば、大体の場合、全体をうまく表すことができます。

 

 

世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】

世界と日本のデータ収集法:多様性と課題【ChatGPT統計解析】