標本調査:有意抽出における標本比率|非標本調査における無回答による偏り【統計学・統計解析講義基礎】
家計に関する統計や、企業等でも月次統計など速報性を要求される動態統計の大部分は、有意抽出による標本調査に基づいて作成される。標本比率が母集団における本当の比率とどの程度一致しているかは、確率的に評価する。非標本調査における無回答は偏りの原因となり、標本調査の方が正確な場合もある
標本調査:有意抽出における標本比率
経済分析で利用される家計に関する統計や、企業等でも月次統計など速報性を要求される動態統計の大部分は、標本調査に基づいて作成されています。
標本調査には確率的な誤差が発生しますが、全数調査に比べて費用と時間の大幅な節約ができる、調査対象が少ないため詳細な調査ができる、などの利点があります。
標本抽出の一種である有意抽出は、銀行が取引先の企業を対象に調査するなど、調査者が主観的に標本を選ぶ方法です。
経済統計ではありませんが、街頭で行われるアンケート調査も有意抽出です。
調査結果の信頼性を客観的に評価できないため、本格的な経済調査ではこの手法はあまり用いられません。
広く利用されている標本抽出法は、誤差の大きさを客観的に評価することができる無作為抽出(ランダムサンプリング)です。
簡単な例として、介護を必要とする高齢者が同居している世帯の比率を求めることを考えてみましょう。
この場合には関心の対象(母集団)は世帯であり、その数が有限であるため、統計学の入門書で扱われる(無限母集団からの)標本とは理論的に異なった取り扱いが必要となります。
単純無作為抽出とよばれる手法では、母集団のN世帯からくじを引くように(無作為に)n世帯が抽出され、調査されます。
標本の大きさnは、通常の調査では数千から数万程度であり、世帯調査の場合には抽出率(f=n/N)は極めて小さくなります。
標本における高齢者同居世帯の数をxとすると、標本比率p=x/nが統計として公表されます。
この標本比率が母集団における本当の比率とどの程度一致しているかは、確率的に評価することができます。
理論的には2項分布を想定して正規分布による近似が用いられます。
比率の場合は、p=±2√(((1-f)p(1-p)/n) ) が近似的な95%信頼区間を与えます。
非標本調査における無回答による偏り
国が公表しているほとんどの統計調査では、以上のような理論に基づいて標本数を決定しており、確率的な誤差すなわち標本誤差は十分小さいと考えてよいのです。
経済統計で問題となる主要な誤差は、全数調査においても発生します。
非標本調査とよばれるものです。
その代表的な例である無回答の原因には母集団名簿の不備や回答拒否があります。
どちらも、得られた標本が母集団を正しく代表せず、偏りを生じさせる原因となっています。
一般に企業に関する調査では、大企業ほど回答率が高く、複雑な調査であれば中小企業の回答率が非常に低いことがあります。
このような調査結果を用いれば偏った結論しか得られません。
全数調査でも、無回答の発生状況によっては、同種の問題が生じます。
調査の回収率は、この種の偏りがあるかどうかを知る手がかりです。
すなわち、回答数が大きくても回答率の低い調査はあまり信用できないといえるでしょう。
非標本誤差を小さくするためには、回答が得られるように努力することが基本ですが、回答に矛盾があれば回答者に確認します。
無回答グループの一部分について追跡調査を行って回答したグループとの差の大きさを検討する、などの管理が必要不可欠になります。
このような管理を容易にする点に、標本調査の最大の利点があるといってもよいでしょう。
非標本誤差が大きい全数調査よりよく管理された標本調査の方が正確な場合もあります。
関連リンク