統計的有意性検定の核心:p値と仮説の真実【ChatGPT統計解析】
統計的有意性検定にはフィッシャー流とネイマン=ピアソン流の二つの学派があり、フィッシャーはp値をデータの驚き度を測る手軽な方法とし、ネイマンとピアソンは偽陽性と偽陰性を抑えるための形式的手段として位置付けた。ネイマン=ピアソン流では帰無仮説と対立仮説を定義し、あらかじめ設定したαに基づき帰無仮説を棄却するかを判断する。p値は決定基準であり、証拠の強さや実験結果の比較には用いない。また、長期的な偽陽性率を保証するための手続きとしてp値の閾値を設定するが、単一の実験結果から偽陽性率を直接計算することは誤解を招く。この方法論では長期的な視点で手続きの信頼性を重視している。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
ネイマン=ピアソン流の検定
p値の問題をさらにしっかり理解するには,統計学の歴史を少し学ぶ必要がある。
統計的有意性検定に関する考えには主に2つの学派がある。
1つ目は,R・A・フィッシャーが1920年代に広めたものだ。
フィッシャーは,p値を仮説検定のための厳密で形式的な手続きの一部と見なすよりは,ひとそろいのデータがどれだけ驚くべきものだろうかということを知るための手軽で形式ばらない方法であると見なした。
p値は,実験者の事前の経験や特定分野の知識と合わせることで,新しいデータをどのように解釈するかについて決めるときに有用なものとなりえる。
フィッシャーの業績が世に出た後,イェジ・ネイマンとエゴン・ピアソンがいくつかの答えられていない問題に取り組んだ。
例えば,かぜ薬の検定では,比較のためのp値が得られるかぎり,平均や中央値のほかに,式をでっちあげられそうなものだったら何を使っても,2つのグループを比較できる。
しかし、どうすればどれが最善だと知ることができるのだろうか。
仮説検定において,そもそも「最善」とは何を意味するのだろうか。
科学においては,以下の2種類の誤りを抑えることが重要だ。
それは,効果がないのにあるという結論を出してしまう偽陽性(false positive)と,真の効果に気づくことに失敗してしまう偽陰性(false negative)だ。
ある意味で,偽陽性と偽陰性はコインの裏表の関係にある。
効果についての結論を急ぐ傾向にあれば,偽陽性を得やすくなる。
逆に,あまりに保守的ならば,偽陰性の側で過ちを犯すことになるだろう。
ネイマンとピアソンは,完全に偽陽性と偽陰性を消し去ることは不可能だとしても,偽陽性をあらかじめ定めた割合でしか起こらないように保証する形式的な意思決定手段を開発することは可能だと考えた。
2人は,このあらかじめ定めた割合をαと呼んだ。
そして,2人の考えでは,実験者が経験と期待をもとにαを設定することになっていた。
だから,例えば,偽陽性の割合を10%に抑えたければ,α= 0.1と設定することになる。
しかし,判断をもっと保守的にする必要があれば,αを0.01やそれより小さい値に設定することもありえるかもしれない。
最善な検定手続きを決めるには,選ばれたαに対して偽陰性率が最も低くなるのはどの検定手続きなのかを確かめることになる。
これは実際にはどう働くのだろうか。
ネイマン=ピアソンの方法論においては,帰無仮説(null hypothesis. 効果が存在しないという仮説)と対立仮説(alternative hypothesis. 「効果が0より大きい」のような仮説)を定義する。
そして,2つの仮説を比較する検定を組み立てた上で,帰無仮説が真だとしたらどんな結果が得られると期待されるかを確かめる。
ネイマン=ピアソンの検定手続きの実施に当たって,p値は,p<αであれば帰無仮説を棄却するという点において使用される。
フィッシャーの手続きと異なり,この手法は特定の実験における証拠の強さについてあえて触れない。
今,興味を持っているのは,棄却するかどうかの決定を下すことだけなのだ。
p値の大小は,実験を比較するためには用いられない。
また,「帰無仮説が棄却される可能性がある」ということ以外の結論を出すために用いられるものでもない。
ネイマンとピアソンは以下のように書いている。
「私たちは,特定の仮説に関心が向けられているかぎり,確率理論に基づく検定で,仮説の真偽について価値ある証拠を提供することができるものはないと思っている。しかし,検定の目的を他の視点から見てもよいだろう。個々の仮説の真偽を知ることを望まなければ,検定に関する行動を規定する法則を探すことがあってもよい。以下で保証するように,長期にわたる経験において,あまり頻繁に間違うことはないだろう。」
ネイマンとピアソンの手法はフィッシャーのものと概念的に異なっているが,現役の科学者はしばしば双方を一緒くたにしている。
ネイマン=ピアソンの手法では、あらかじめ選ばれたp値の閾値を用いて、「統計的有意性」を得る。
この閾値は,長期的に見たときの偽陽性率を保証してくれる。
ところで,実験を1つ実施して, p = 0.032が得られたとしよう。
閾値がp<0.05という慣習的に用いられているものならば,これは統計的に有意になる。
だが,閾値がp<0.033だったとしても統計的に有意になる。
こう述べることはよくある誤解なのだが,この結果から「偽陽性率は3.2%だ」と述べる誘惑に駆られることだろう。
しかし,これでは意味が通じない。
単一の実験には偽陽性率というものが存在しない。
偽陽性率は自分の手続きによって決めるもので,単一の実験の結果で決めるものではない。
長期的に見たときの偽陽性率αを得る手続きを用いているのであれば,どんなことが分かったとしても,個々の実験がちょうどpの偽陽性率を持つとは主張できない。
統計的有意性検定には主にフィッシャー流とネイマン=ピアソン流という2つの学派が存在します。これらはどちらもデータ分析における帰無仮説検定を基盤としており、科学的推論や意思決定を行うために重要な役割を果たしますが、その考え方や手法には大きな違いがあります。フィッシャー流は主に、p値を用いてデータの驚き度を測る手軽な方法として有意性を判断するアプローチです。一方、ネイマン=ピアソン流は、仮説検定を長期的な視点での誤りの管理と結び付けた体系的な方法であり、偽陽性率(第一種の過誤)と偽陰性率(第二種の過誤)を抑えるための形式的手段として捉えられます。この2つの学派の違いを詳しく理解するためには、それぞれの手法の哲学的背景や実践的な適用方法を比較することが重要です。フィッシャーのアプローチは、研究者がデータを収集し、その結果に基づいて帰無仮説がどの程度の驚きを伴うかをp値として算出します。このp値は、観測されたデータが帰無仮説の下で発生する確率として定義され、通常は0から1の範囲で表されます。小さいp値(例えば0.05未満)は、観測された結果が帰無仮説の下では非常に稀であることを示し、帰無仮説を棄却する理由となる場合があります。しかし、フィッシャー流ではp値が小さいからといって直ちに帰無仮説を棄却するわけではなく、研究者の判断や実験の文脈が考慮されます。一方で、ネイマン=ピアソン流では、帰無仮説と対立仮説の両方を明確に定義し、それぞれの仮説に基づいた決定ルールを構築します。このアプローチでは、検定の目的が帰無仮説を棄却することではなく、事前に設定した許容可能な誤り率(αやβ)に基づいて、どちらの仮説を採択するかを決定する点に特徴があります。αは第一種の過誤率、すなわち帰無仮説が真であるにもかかわらずこれを棄却する確率を表し、βは第二種の過誤率、すなわち対立仮説が真であるにもかかわらず帰無仮説を採択する確率を表します。この2つの過誤率はトレードオフの関係にあるため、実験計画の段階で両者のバランスを考慮することが重要です。ネイマン=ピアソンの枠組みでは、p値は単なる計算結果として扱われ、証拠の強さやデータの比較には用いません。代わりに、帰無仮説を棄却するための閾値(通常は事前に設定されたα)を超えるかどうかが焦点となります。これにより、検定の結果は明確な「棄却」または「棄却しない」という決定に帰着します。この手法は、長期的な誤り率を一定に保つために設計されており、複数の実験を繰り返した場合でも信頼性が担保されるようになっています。しかし、この方法論にはいくつかの注意点も存在します。例えば、p値を用いて偽陽性率を直接計算することはできず、あくまで事前に設定された閾値に基づいて帰無仮説を評価する手続きの一部に過ぎません。また、p値が小さい場合でも、その結果が実際の科学的意味を持つかどうかは別問題であり、効果の大きさや実験の質を考慮する必要があります。さらに、長期的な視点での信頼性を重視するネイマン=ピアソン流のアプローチは、単一の実験結果に過剰に依存しないようにするためのものであり、統計的有意性を超えて科学的意義を探る補完的な手法と組み合わせることが推奨されます。結論として、フィッシャー流とネイマン=ピアソン流は、それぞれ異なる目的や哲学に基づいて設計された手法であり、どちらのアプローチを採用するかは研究の目的や状況によって異なります。研究者はこれらの違いを正確に理解し、それぞれの利点と限界を踏まえた上で適切な方法を選択することが求められます。また、いずれの方法を採用する場合でも、統計的な結果を実際の科学的結論や意思決定にどのように結び付けるかを慎重に検討することが重要です。
関連記事