確率で解き明かす統計学の魅力:離散型と連続型【ChatGPT統計解析】
統計学における確率の概念は、未知の事象の発生可能性を数値化することであり、推測統計には不可欠です。確率変数には二種類あり、離散型確率変数は限定された値(例: サイコロの目)を取り、連続型確率変数は無限の値を取り得る(例: 室温)。ラプラスの「理由不十分の原理」に基づき、ある事象が他より起こりやすい理由がなければ、それらは等しい可能性を持ちます。離散型は個別の値に対する確率を、連続型は値の区間に対する確率を扱います。大数の法則により、試行回数が多くなるほど観測値の平均は理論値に近づきます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
確率の概念
統計学を語る上で確率の理解は避けて通れません。
特に推測統計においては確率の理解は必須です。
高校生のときに習ったことをおさらいする意味でまずは確認しましょう。
確率論を体系化したラプラスは、次のように言っています。
我々が無知であるがゆえに確率ということが問題になるのであり、同様に確からしいということは、それを判断する知識が欠けるということを意味します。
例えば、コインを投げたとき、表が出るのと裏が出るのと、どちらがより確からしいか全く分かりません。
そこで、表が出ることと裏が出ることは、同様に確からしい、とするのです。
つまりラプラスは「もし、ある事象がほかの事象よりも起るべきであるという十分な理由をもたなければ、それらの事象は同等の可能性をもつ」という原理を提唱したのです。
これを、理由不十分の原理といいます。
そして、すべての事象の集合(標本空間といいます)の数をNとします。
たとえばサイコロを投げて出る目の場合にはN=6となります。
これらが「すべて同程度に確からしい」とすると、偶数の目という一つの事象にとって、「それが生じれば偶数と判定するような」起り方は2, 4, 6の3通りです。
そこで、偶数の目が生起する確率は、3/6=0.5 となります。
サイコロの目は、確率変数といいますが、この確率変数は1〜6の値をとり、どの値をとる確率も違うという理由はありません。
つまり理由不十分の原理です。
離散型確率変数
サイコロは1.3とか、4.5とかいった目が出ることはありません。必ず1, 2, 3, 4, 5, 6のいずれかの値になります。
そして、これらの目が出る確率は均等に1/6です。全部足すと必ず1になります。
コイン投げも同じで、表、裏以外にはありえません。その中間などはないのです。
表裏いずれも出る確率は1/2で、全部足すと必ず1になります。
サイコロの目や、コインの表裏のような確率変数を、離散型確率変数といいます。
離散とは、とびとびの値をとるという意味です。
連続型確率変数
これに対し、例えば室温は、20度と21度の間に無限通りの値をとりえます。
20.803649187349568391270174098・・・みたいな値も、実際に測るのは無理ですがそのような値をとりうることは理論的に考えられます。
このような確率変数は、連続型確率変数といいます。まさに連続で、とびとびの値ではないということです。
確率を学習するときは、最初は離散型確率変数から学習した方がいいです。
そのほうがわかりやすいからです。
連続型確率変数の場合、確率を求めるためには確率変数の区間を区切る必要があります。
また、サイコロの目の数の平均は理論値としては3.5です。
しかし、実際にサイコロを数回振った場合の目の数の平均は必ずしも3.5になりません。
なぜならば偶然に6がたくさん出たりして偏る場合があるからです。
しかし、これを無限回振って平均すると3.5に限りなく近づきます。
これを大数の法則といいます。
以上が確率の基本定理です。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
大数の法則について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
大数の法則っていうのは、すごく簡単に言うと、「たくさん試せば試すほど、本当の答えに近づくよ」というルールだよ。例えば、コインを1回投げたときに表が出る確率は、半分だよね。でも、実際に1回投げただけだと、表が出るか裏が出るかは運次第。だけど、もしコインを100回、1000回とたくさん投げ続けたら、表が出る回数はだいたい投げた回数の半分に近づいていくんだ。これが大数の法則。つまり、何かをたくさん繰り返すほど、たまたまじゃなくて「普通にあるべき結果」が得られるってわけ。サイコロをたくさん振れば、1から6の目が出る確率も均等になってくよ。