確率論と統計学の基礎：リスク予測の鍵【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

確率論と統計学の基礎：リスク予測の鍵【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
確率論は統計学の基礎であり、時間をかければ理解できるとされています。高度な確率論は複雑ですが、基本原理は直感的です。多くの人は天気予報や喫煙のリスクなどで確率に馴染んでおり、保険契約を通じて確率的推論に基づく企業とも関わっています。保険は将来のリスクを考慮して結ぶもので、保険料は統計家が確率に基づいて設定します。確率の基本を理解するには高度な数学的知識は不要であり、これが統計技法の土台となります。また、数式は重要な情報を簡潔に伝える手段であり、数学の言語を理解すれば異なる言語を話す人とも意思疎通ができます。例えば、算術平均の計算式は、全ての値を合計してその数で割るという単純な操作を示しています。確率論では試行や標本空間、事象などの基本概念が重要です。試行は結果が未知の事象を指し、標本空間は全ての基本結果の集合、事象は試行の結果を表します。和事象や積事象、互いに排反する事象、独立事象なども確率論の基本概念です。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次確率論と統計学の基礎：リスク予測の鍵【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

統計学における確率論

確率論は統計の基本である。確率は手ごわいトピックだと思う人もいるが、時間をかけてもいいと考えている人ならば、統計で成功を収めるのに必要なレベルまで理解できるはずだ。

多くの学刊分野と同様に、高度な確率論は非常に複雑になっており理解しにくいが、確率の基本原理は直観的で理解しやすい。

その上、ほとんどの人は、天気予報やたばこのパッケージに記載された喫煙が肺癌発生のリスクを高めるという警鐘などで、確率的表現に既になじみがある。

大部分の大人のように１件または複数件の保険契約を結んでいれば、既に確率的推論に基づく企業に関わっていることになる。

例えば、自動車を運転または所有している場合には、おそらく自動車保険契約を結んでいる。

この保険は事故によって被る可能性のある多額の出費から保険契約者を守るためにあり、事故を起こす予定があるから保険契約を結ぶわけではない。むしろ、将来そのような事象が発生する確率がゼロではないことを認識しているからである。

政府はたいてい、同じ理由から自動車の所有者に保険契約を結ぶように求める。

この要求は運転者のたちが悪いという判断ではなく、事故は起こるものであり、重大事故の補償を自費で賄える人は少ないという認識によるものである。

保険業界は統計家集団を雇い、事故にあう確率やその他の理由で保険請求を行う確率とそのような請求で会社にかかる費用を考慮して保険料金を設定する。

確率の基本を理解するには通常高校で扱われる以上の数学的知識は必要なく、このような概念を理解すると、統計技法を理解するための土台となる。確率を理解し習得すれば、高度な作業を行ったり統計を自分の研究分野に選んだりすることがない限り、今後遭遇する統計の大部分を理解することもできる。

さらに、日常会話で使う確率的表現を理解し、間違って使われている場面を認識できる。

数式について

過去に数学の成績が芳しくなかった人は数式が嫌いなことが多く、数学者が初心者を遠ざけ、手柄を自分のものにするための障害として考案した難解なコミュニケーション方式であると感じる。

数学と統計が簡単な科目であると言うつもりはないが、数式が理解の妨げであるという思い込みは間違っている。

実際には、数式は重要な情報をやり取りするための手短で明確な方法であり、数学の言語で書かれた説明書と考えられる。

以前、微積分の教授の１人は、「数式を見て、その数式が示していることを行え」と言っていた。

数式は言語に依存しないという利点があるため、数学は母国語や国籍に関わらず人々の間で伝え合い理解できる。

英語、ロシア語、またはペルシア語を話して育ってきたかどうかは問題ではない。

数学の言語を理解してさえいれば、人間の言語で生じる障害とはある程度無関係に数学的話題について同僚と意思疎通できる。

算術平均（これは数の平均を示す共通語である）を求める式の例を考えてみよう。

平均を求める式

これはギリシャ語のように見えるかもしれないが（実際に一部はギリシャ語である）、実際は必要な計算方法を説明しているだけである。部分に分割してみよう。

・Ｘは平均を計算する数を表す。

・記号XiはＸの特定の値を表す。

・nは平均を計算するのに使うＸの個数を表す。

・総和記号Σは、各事例（この場合はＸのすべての値）を合計することを表す。

総和記号の上下の表記は、Ｘの最初の値（X1）から最後の値（Ｘn）までのすべての値を合計することを表す。

この式は、平均を計算するには、Ｘのすべての値を合計し、合計した事例の数で割るということを示している。

３つの数値（1、3、5）の平均を計算したいとしよう。

変数表記では、この数値をX1、X2、X3と表す。

この例では３つの数値なのでn = 3である。

したがって、この式を実行するにはXIからX3までの数値を合計して、1/3を掛ける。

3つの数値の平均の計算

統計の学習を進めていくとさらに複雑な式に出会うが、式を使う手順は同じである。

①使用されている記号と必要な演算の意味を特定する。

②記号に代人する値を特定する。

③式にその値を代入して指定の演算を実行し、結果を得る。

基本定義

以下は確率を論じるために知っておくべき基本概念である。

試行

確率は試行の結果を対象とする。

試行は、実験や観測とも呼ばれる。

いずれの用語も、結果が未知の事象を指す。

試行の結果がわかっていれば、結局のところ、確率を考える必要はない。

試行は硬貨を投げたり１組のトランプからカードを引いたりするなどのように簡単な場合もあれば、乳癌と診断された患者が診断の５年後にも生存しているかどうかを観測するなどのように複雑な場合もある。

「試行」という用語は１回の硬貨投げなどの１つの観測に使い、「実験」という用語は１つの硬貨を５回投げた結果などのような複数の試行に使う。

標本空間

Ｓで表す標本空間は、試行で起こり得るすべての基本結果の集合である。

試行が硬貨を１回投げる場合には、表と裏の２つがこの実験で起こり得るすべての結果を表すため、標本空間はＳ＝{表、裏}である。

硬貨を投げると表か裏のどちらかが出る。

１つの６面サイコロを振る実験では、標本空間はS= {1, 2,3, 4, 5, 6}であり、サイコロを１回振った際に出る可能性がある６つの面を表す。

このような基本結果は標本点とも呼ばれる。

実験が複数の試行からなっている場合、この試行で起こり得るすべての結果の組合せは標本空問の一部として示さなければいけない。

例えば、試行が硬貨を２回投げる場合には、結果は２回とも表、１回目が表で２回目が裏、１回目が裏で２回目が表、２回とも裏になる。

事象

通常はE（S以外の任意の大文字で表すこともある）で表す事象は試行の結果を表し、１つの結果か結果の集まり（集合）で構成される。

ある結果が発生した場合、「事象を満たす結果」または「発生した事象」と言う。

例えば、「1回の硬貨投げで表」の事象はE＝｛表｝で表し、「1つのサイコロを振って奇数」の事象はE= {1,3, 5}で表す。

単純事象は、1回の硬貨投げなどの１回の実験や観測の結果である。

以下の和事象や積事象の例のように、単純事象を組み合わせて複合事象にすることができる。

事象は、結果を列挙するか結果を論理的に定めることで定義できる。

例えば、試行がサイコロを２回振り、合計が６未満になる頻度を求めたい場合には、E = {2,3,4,5}またはE＝｛合計が６未満｝と規定できる。

事象や事象の組合せの確率を図示するための一般的な方法はベン図である。

ベン図では、長方形が標本空間を表し、円が特定の事象を表す。

新しい数学で育った人は、おそらく小学校の数学の教科書で学んだベン図を覚えているだろう。

小学生に集合論を導入した判断は議論の余地があるであろうが、もちろんイギリスの数学者ベン(John Venn、1834～1923)や彼の図には何も責任はない。

ベン図は数学や関連分野で対象集合間の論理的関係を表すのに広く使われており、文学などの他の学科でも採用されている。

ベンは、成人期のほとんどをケンブリッジ大学キーズカレッジでの教職で過ごした。

ベンは論理学に厰も興味があり、ベン図を紹介した「Symbolic Logic」(1881年）などの３冊の教科書を出版した。

現在、キーズの学生と教員はベンのベン図を毎日思い起こす。

なぜならキーズカレッジの食堂のステンドグラスは異なる色の３つの円で示した３つの重なり合う集合を表すベン図がデザインされていて、ベンはステンドグラスとして永遠に存在し続けている。

和事象

いくつかの単純事象の和事象は、１つ以上の事象が発生した場合に生じる複合事象となる。

EとＦの和事象はEUFと表記し､｢EかＦ、またはEとＦの両方｣を意味する。

和事象(Union)記号は大文字Ｕに似ている。

EとＦの和事象は、部分的に重なる２つの完全な円を表す。

例として、６面サイコロを振る事象でE = {1, 3}、F= {1, 2}と仮定しよう。

1、2、または３という結果が事象EUFを満たす。

EUF = {1,2,3}と言うこともできる。

積事象

２つ以上の単純事象の積事象は、すべての単純事象が発生した場合のみに生じる複合事象となる。

余事象

事象の余事象は、その事象ではない標本空間内のすべてを意味する。

事象Eの余事象は~E、｢Eではない｣まはた｢Eの余事象｣と読む。

例えば、

E= (numbers > 0)の場合、~E = (numbers≦O)である。

６面サイコロを振る事象でE= {1, 3}の場合、~E = {2, 4, 5, 6}である。

互いに排反

事象が同時に生じ得ない場合、それらの事象は互いに排反である。

言い換えると、２つの集合が共通する事象を持たない場合、その２つの集合は互いに排反である。

例えば、事象A＝（年収が10万ドルよりも多い）とB＝（年収が10万ドル以下）は互いに排反であり、集合A = (偶数）とB＝（奇数）も互いに排反である。

独立事象

２つの試行が独立の場合、一方の試行の結果は他方の結果に影響しない。

言い換えると、試行が独立の場合、一方の試行の結果を知っていても他方の結果に関する情報は得られない。

独立事象の古典的な例は、硬貨を投げる場合である。

硬貨を２回投げる場合、最初の試行の結果は２回目の試行の結果に影響を与えない。

関連リンク

ＮＩＨポリシー

統計学におけるデータの分布と可視化

リスク

後ろ向きデザイン

統計学からみた昇給・昇進

分解能

統計学におけるいろいろな度数分布の型

経済統計の大規模調査

前向き研究と後ろ向き研究

ビジネスシーンに必要なモデル

1

2

3

4

5

6

確率論と統計学の基礎：リスク予測の鍵【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
確率論と統計学の基礎：リスク予測の鍵【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】