データは加工することが大切|観測誤差を考慮に入れた真の母集団の推測【統計学・統計解析講義基礎】
データはただ眺めているだけでなく上手に加工することが大切。統計学を用いればこのような観測誤差を考慮に入れて真の母集団を推測することができる
データは上手に加工することが大切
データを手に入れても、ただ単にデータを眺めているだけではその本質は見えてきません。
しかしながら、データを上手に加工すれば、さまざまな特徴や興味深い性質を見出すことも可能です。
膨大なデータからその本質を見出すためのさまざまな手法を身につけることは大切なことです。
データの分析を行う際に頻繁に使用される方法は必ずマスターしましょう。
そして、自分の興味あるデータを入手したらそれを実際に加工し、その本質を探りましょう。
場合によってはExcelを用いるとより効果的です。
統計学では、ある観測対象から得られたデータをもとに、その観測対象の特性を明らかにするために、そのデータをさまざまな形に加工します。
このとき、その観測対象を母集団(population)といい、母集団全体の観測値を全標本といいます。
一方、母集団の一部分だけに関する観測値を標本(sample)と呼びます。
たとえば、ある大学の1年生の統計学の成績を調べたいとします。
この場合、その大学の1年生全員が母集団、1年生全員の成績が全標本となります。
一方、男子学生だけの成績、女子学生だけの成績、学生番号が奇数番の学生の成績などは、すべて標本と呼ばれています。
なぜ、全標本と標本を区別するのでしょうか。それは、母集団全体の調査には時間と経費がかかり、全標本を得ることが困難だからです。
このような場合、実際には母集団の一部から標本を得て、得られた標本から母集団全体の特性を推測します。
これを推測統計(統計的推測)といいます。
たとえば、国勢調査では、日本の全世帯が母集団ですから、得られたデータは全標本です。
ただし、国勢調査には大きな経費と時間がかかるので、調査は5年に1度しか行われません。
一方、消費者物価は、全国から選ばれた一部の世帯を調査して物価指数を作成しており、標本にもとづく指数となります。
この場合、調査は一部の世帯のみに対して行われますので、時間も経費も少なくて済み、消費者物価指数は毎月公表されています。
統計学は、もともとは国家の為政者が、政治のために必要とした基礎資料を提供するための方法を考案することはらはじまりました。
人口、所得、耕地面積などの資料を収集し、一国の国力を測ることをはじめ、国勢に関して集められた資料を整理することが当初の目的でした。
一方、このような資料の特性を見出すための、さまざまな工夫もなされてきました。
とくに、平均、分散、標準偏差、四分位点、相関係数などの分布の状態を示す指標は、このような資料整理から生まれてきました。
国勢に関する基礎資料の整理を行うから、統計の作成は行政の一部として欠かせない位置を占めてきました。
現在も各国政府は統計業務を行っており、日本でも総務庁統計局は正確さにおいて世界に誇る統計を作成しています。
総務省統計局をはじめとして、経済産業省や財務省などでもさまざまな統計を作成しています。
観測誤差を考慮に入れた真の母集団の推測
一般に、政府が作成する統計を政府統計と呼びます。それに対し、政府以外の民間機関が作成する統計を民間統計と呼びます。
政府統計にしろ民間統計にしろ、統計を作成する側は基礎資料を収集しますが、統計を採られる側からすると、基礎資料を提出しなければなりません。
たとえば、5年に一度行われている国勢調査では、全国の各世帯に調査表が配られ、私たちはその調査表に記入し、その記入表をもとに国勢調査の結果が発表されます。
ここで心配なのは、はたしてどの世帯も間違いなくきちんと調査表に記入を行っているのでしょうか、という点です。
現実的に考えれば、面倒だからといっていい加減な数値を記入したり、そもそも記入漏れを起こすことも実際にはあるでしょう。
このような場合、たとえ母集団すべてを調べる全数調査が行われたとしても、真の母集団とは異なることになります。
誤差を伴った統計的推測を行う可能性があります。
実は、統計学を用いればこのような観測誤差を考慮に入れて、真の母集団を推測することができるのです。
関連リンク