Python・R・エクセルによるデータサイエンス | 統計解析講義

標本調査と統計的推測【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

標本調査と統計的推測【統計解析講義基礎】

標本調査と統計的推測【統計解析講義基礎】


標本調査と統計的推測【統計解析講義基礎】

 

確率を推定する方法を応用すると、データの一部のみを調べてデータ全体の様子を知る「統計的推測」を行うことができます。

 

だいぶ前の話ですが、1994年にノルウェーで開かれたリレハンメル・オリンピックの開会式の放送で、アナウンサーが「ノルウェー人は背が高く、平均身長は男性179cm、女性170cmだそうです」という話をしていました。それは、どうやって調べたのでしょうか。

 

ノルウェー人全員に、一人ひとりの身長計に乗ってもらって調べれば、確実に答えがわかるでしょう。

 

このような調査を全数調査といい、その代表的なものが、5年に1回行われる国勢調査です。

 

しかし、国勢調査は、国の莫大な予算と労力、それに「統計法」による強制力を用いて行われている調査です。

 

平均身長を知るだけのために、そのような予算と労力を使うことは、現実にはできません。

 

そこで行われるのが、「ノルウェー人の一部を調べて、ノルウェー人全体を調べたときの結果を推測する」という方法です。

 

このとき、調査対象に選ばれた人を標本、標本を選んで調査する方法を標本調査といい、このようなデータの一部を調べて全体を推測する統計学の手法を統計的推測といいます。

 

このようなデータは「値が大小さまざまであり、また、データ全体を調べることはできない」という性質をもっています。

 

このような「大小さまざまな値をもつデータ全体」を、データの分布といいます。

 

分布のうちの一部のデータだけを調べて、分布全体を推測することを可能にするために、じつは「くじびき」と同じ原理が用いられています。

 

図にある山型のグラフが、ノルウェー人の身長の分布を表しているとします。

 

横軸で身長の高低を表し、ある範囲の身長の人の割合を縦の柱で表します。このようなグラフをヒストグラムといいます。

 

この分布から、標本を公正なくじびきで選んだとしましょう。

 

公正なくじびきとは、どの人も同じ確率で選ばれるようなくじびきです。このような選び方を無作為抽出といいます。

 

このような選び方をするとき、図の右上のように、身長の極端に高い人たちだけが選ばれてしまうことがないとはいえません。

 

そうやって選ばれた標本だけを見れば、ノルウェー人はとてつもなく背の高い人たちと誤解してしまうかもしれません。

 

しかし、身長の極端に高い人の割合は小さいので、図の右上のような偏った選ばれ方をする確率も小さいといえます。

 

たいていは、図の右下のように、並の人は多く、極端な人は少なく選ばれます。

 

このときは、標本だけの平均を計算すれば、それはノルウェー人全体の平均とほぼ同じになるはずです。

 

つまり、このように無作為抽出された標本を用いれば、ノルウェー人全体の平均身長は、ノルウェー人全員を調べなくてもたいてい、ほぼ正確にわかります。

 

これが、統計的推測の原理です。

 

「たいてい」と「ほぼ」にひそむもの

 

ここで、平均身長がたいてい、ほぼ正確にわかる、と述べました。

 

図の右下の場合であっても、無作為抽出で選ばれたのはあくまで一部の人ですから、標本として選ばれた人の平均とノルウェー人全員の平均とは、正確には同じなのではなく、ほぼ同じであるのはしかたありません。

 

一方、たいていの意味には注意する必要があります。

 

図の右上のような偏った標本が選ばれてしまう確率は、たしかに小さいです。

 

しかし、ノルウェー人全体の身長の分布(図中のヒストグラム)は実際には知らないわけですから、もし運悪く偏った標本が選ばれていても、その標本が偏っているのかどうかを知るすべはありません。

 

選ばれた標本から計算された平均を、ノルウェー人の平均身長にほぼ等しいと、信じるしかないのです。

 

つまり、平均がたいてい正確にわかる、というのは間違った結果を信じて大失敗することもある、ということを意味しています。

 

したがって、統計的推測を行う際には、大失敗の確率を計算しておく必要があります。

 

確率がわかっていれば、このような統計的推測を何度も行えば、そのうちどのくらいの割合で失敗するかも想定できますから、それに対する備えをすることができます。

 

統計的推測の方法のひとつである区間推定では、ノルウェー人全体の平均身長は、179cm-182cmの間にあると推測します。

 

この推測が当たっている確率は95%である、という答え方をします。

 

身長の幅が「ほぼ」に相当し、当たっている確率が「たいてい」に相当します。これが区間推定の基本的考え方です。

セミナー詳細こちら                    解析ご相談こちら


 

標本調査と統計的推測【統計解析講義基礎】

標本調査と統計的推測【統計解析講義基礎】

標本調査と統計的推測【統計解析講義基礎】