誤差・比・有意差検定|難しい概念【統計学・統計解析講義基礎】
誤差、比、有意差検定など、統計学・統計解析には難しい概念が多数登場
誤差はわかりにくい概念
統計解析は誤差との戦いの学問とも言われており、誤差をいかに上手に処理するかが統計解析では大変重要です。
しかし、この誤差は私たちが学校で習わない概念なので、とっつきにくい面があります。
例えば、コインを投げて裏表の出る確率はいずれも理論値としては0.5です。
歪んだコインでない限り、裏と表は誤差なく同じ確率で出現し、確率の和は1なので2で割ってちょうど0.5という計算です。
誤差は全くなく、ちょうど0.5です。
これは学校でも習う確率計算で、きわめて単純明快でわかりやすいです。
しかし、実際にコインを100回投げたとき、裏と表はちょうど50回ずつ出現するでしょうか。
50回ずつとは限りません。
49回と51回かもしれません。
したがって、確率は0.5に必ずしもならず、0.49だったり0.51だったり、場合によっては0.48になるかもしれないのです。
誤差を伴います。
誤差を伴わない理論的確率を数学的確率、誤差を伴う確率を経験的確率ともいいます。
統計解析は実践の学問であり、実際の世界では「誤差」を伴うということを理解しなければなりません。
高等学校から100%真実の数学を習ってきた私たちにとって、こうした「誤差」という考え方自体がなじみにくいといえます。
比はわかりにくい概念
統計解析では比がよく登場します。
統計解析・統計学をわかりにくくしているのは誤差だけではありません。
統計学では難しい概念がたくさん登場します。
たとえば比。
比と一言で言っても、分子分母を何にするかで、リスク比とかオッズ比とかハザード比とか色々あります。
また、オッズ比の分子分母のオッズ、これもp/1−p という比をとっていますから、結局比のまた比を計算しているわけです。
冷静に一つ一つ理解すればわかるのですが、時に混同してしまう場合もあります。
有意差検定はまわりくどい二重否定
統計解析・統計学の難しい概念として、有意差検定の二重否定があります。
統計解析というと反射的に「有意差検定」を連想する人も多いでしょう。
そのくらい有意差検定は統計解析では定番となっておりますが、この検定が実はクセモノなのです。
例えば臨床試験は、ある新薬による治療効果が偽薬(プラセボ)に比べ高いということを言いたいがために行うのですが、その場合前提条件として「新薬と偽薬の治療効果は等しい」という仮説、すなわち帰無仮説を置きます。
帰無仮説とは、文字通り無に帰するべき仮説であり、本来欲しいのは「新薬の効果は偽薬より勝る」という対立仮説です。
この帰無仮説すなわち「等しい」となる確率が0.05以下で極めてまれであるから、帰無仮設が却下(棄却)され、「有意差がある」という対立仮説を支持するというのが有意差検定の考え方です。
しかし、よくよく考えると帰無仮説すなわち新薬がにせの薬と治療効果が同じというのは、きわめて理不尽であり、喜ぶ人は誰もいません。
むしろ製薬企業の人にとっては死活問題にもなるとんでもない話です。
多くの場合は差があることのほうが多いです。だから製薬企業は成り立っているのです。
それなのに、なぜ等しいという仮説、帰無仮説を設定するのでしょうか。
それは、等しい=差がゼロ ということですから、差について議論する必要がなくなるからです。
後の理論展開がこの方が楽だからです。
逆に、対立仮説を先に設定すると、差をいくらにすればよいか、という余分の議論が発生します。
しかもこの差をいくらにするかの線引きも実際とても難しいです。
だから帰無仮説を先に設定し、これを否定するという手段をとるのです。
有意差検定は本当に意味があるのか
サンプル数が膨大な場合、ごく小さい差であっても「統計学的に有意」という結果が出てしまう場合があります。
逆に、例えば「等しい」となる確率が0.2で0.05を超えることから「有意差が認められなかった」という場合に、有意差が否定されただけで、「等しい」という帰無仮説とイコールになるわけではないのです。
つまり0.05を超えた場合は何も意味のある結論が得られていない状況ということになります。
こういう話をすると、有意差検定って本当に意味があるのか、と思ってしまい、勉強するモチベーションすら低下してしまいます。
実際私自身も、仮説検定が優れた手法とは全く思っていません。世の中で使われているから仕方なく使っているにすぎないのです。
誤差、比、有意差検定など、あくまでこれらは例にすぎず、統計学・統計解析には難しい概念が多数登場します。