Python・R・エクセルによるデータサイエンス | 統計解析講義

割合から確率への統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

割合から確率への統計学【統計解析講義基礎】

割合から確率への統計学【統計解析講義基礎】


割合から確率への統計学【統計解析講義基礎】

 

世の中で起きる現象には、多数のデータによるだけでなく、あるできごとが起きるのかどうかが確実にはわからず、結果が偶然に左右されて不確実である現象がたくさんあります。

 

このような現象をランダム現象といいます。

 

人は、多数のデータで表される現象だけでなく、偶然に左右されるランダム現象も理解しようと努めてきました。

 

そのために考え出したのが「割合」の先にある「確率」の考え方です。

 

原発事故と放射線の問題を考えてみましょう。

 

放射線障害とは、放射線のエネルギーによって遺伝子にキズがつき、それがガンなどの病気をひきおこすものです。

 

キズがつくかどうかは偶然によるものですし、キズがついても修復されて病気に至らないこともあります。

 

これらの偶然は、起きるかどうかを人が知ることはできません。

 

ただ、起きやすさを確率の形で理解することしかできません。

 

したがって、「ある量の放射線を浴びたときに、病気になるのか、安全なのか」と聞かれても答えられません。

 

「健康運が少し下がる」くらいのことしかいえないのです。

 

これは放射線に限らず、たばこの害についても同じです。

 

世の中には、このような「偶然に依存する現象」がたくさんあり、確率でしかとらえることができません。

 

では、「ある量の放射線を浴びたら、病気になる確率がどれだけ大きくなるのか」は、わかるのでしょうか。

 

また、わずかの量の放射線でも病気になる確率が大きくなるのなら、ある量以下の放射線は安全というのはおかしいのではないでしょうか。

 

これらに答えるには、確率の推定を行う必要があること、そして、データを集めて(つまり統計によって)それを行うこと、そして、それがそう簡単でないことを知る必要があります。

 

確率の推定とは、簡単にいえば「くじ引きの結果から、当たり確率を推定する」ことです。

 

そんなことが正確にできるのでしょうか?ここで、下のような簡単な例を考えてみましょう。

 

「半分の確率で当たる」と店のおじさんが言っているくじがあるとしましょう。

 

ところが、あなたがこのくじを10回引いても、1回も当たりませんでした。

 

おじさんは、運が悪かったね、と言っていますが、あなたはどうも納得がいきません。

 

おじさんの言っている「半分の確率で当たる」なってウソじゃないの?と思います。

 

さて、おじさんかあなたか、どちらが正しいでしょうか?

 

おじさんの言っていることが正しいかどうかは、くじ箱を開けてなかのくじを全部調べれば、確実にわかります。

 

もちろん、そんなことはふつうはできません。

 

しかし、そのようにして調べない限り、おじさんがウソをついているのか、それともあなたの運がものすごく悪いのか、結論は出ません。

 

そこで、次のように考えてみます。

 

おじさんの説では、1回のくじびきでは当たりもはずれも確率は1/2で同じだと言っています。

 

ならば、「10回引いて1回も当たらない」確率は1/1024ということになります。

 

つまり、おじさんが言うように「半分の確率で当たる」であるとすれば、「10回引いて1回も当たらない」という結果になる確率は1/1024ということになります。

 

確率とは、すべての可能性のうち、どの結果になりやすいかの度合いを表すものです。

 

ということは、おじさんの説を正しいと受け入れることは、10回のくじびきの結果のすべての可能性のうち、1/1024という小さな確率しか起きないことが、たまたま今、目の前で起きている」と考えていることになります。

 

そんなムリのある考え方を受け入れるよりも、「半分の確率で当たる」というおじさんの言い分のほうが間違っていると考えるほうが自然ではないでしょうか?

 

これは仮説検定という考え方です。

 

では、この問題が「このくじを10回引いても1回もあたらかなった」ではなく、「50回引いて17回しかあたらなかった」だったとしたらどうでしょうか。

 

こうなると、上のように簡単には計算できなくなります。

 

それに、そもそも上の2分の1の10乗という計算だって、2分の1を10回かければよいのはなぜなのでしょうか。

 

それは、「各回のくじびきで、当たる確率は一定」「ある回のくじびきの結果が、別の回の結果に影響しない(試行の独立性)」などと考えているからです。

 

これらのことは、決して当たり前ではないにもかかわらず、正しいと仮定しています。

 

このような仮定をすることで、上の確率の計算が可能になります。

 

上で述べた仮定は、くじびきのような偶然によって結果が不確実な現象が、「どのように」不確実かを仮定したもので、先に述べた「モデル」と同様の、一種のモデルです。

 

このようなランダム現象を表すモデルは、確率分布モデルとよばれています。

セミナー詳細こちら                    解析ご相談こちら


 

割合から確率への統計学【統計解析講義基礎】

割合から確率への統計学【統計解析講義基礎】

割合から確率への統計学【統計解析講義基礎】