p値に潜む誤解と基準率の落とし穴【ChatGPT統計解析】
p値が小さいことを強調して誤差がほぼないと主張するニュース記事があるが、これは誤りである。「p = 0.0001だから1万回に1度しかない」といった説明は不正確だ。p値は真の効果がないという仮定のもとで同等かそれ以上の極端なデータが出る確率を示すが、薬の有効性を示すものではない。基準率を無視する誤解は「基準率の誤り」と呼ばれ、p<0.05の結果が必ずしも真実を意味しない。例えば、ガン治療薬の試験で38%が偶然だった。物理学でもヒッグス粒子の発見に際して確率が異なり、基準率を無視していた。特に新薬開発の初期段階ではp<0.05の結果の多くが偶然とされる。2002年の研究では学生や講師がp値に関するクイズに答えられなかったこともあり、正しい理解が必要である。実験で得られるp=0.01は平均に有意差があることを示唆するが、帰無仮説が誤りと完全に示されたわけではなく、対立仮説の正しさや信頼性は基準率を考慮しなければならない。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
基準率の誤り
p値が小さいことを引き合いに出して,誤差がありえないことを示すしるしだとするニュース記事はしばしば見られる。
こうした記事では,「p = 0.0001だから統計的な偶然としてこの結果が出てくるのは1万回に1度しかない」と書かれたりする。
だが,これは正しくない。
ガン治療薬の例では, p <0.05という閾値を用いているが,統計的に有意な結果のうち単なる偶然に過ぎないものは38%だという結果になっている。
このような誤解は基準率の誤り(base rate fallacy)と呼ばれる。
p値がどのように定義されるか,思い出してみよう。
p値とは,真の効果がないか,真の差異がないという仮定のもとで,実際に観測したものと同じか,それよりも極端な差があるデータが収集される確率のことだ。
p値は薬が有効でないという仮定のもとで計算され,自分のデータと同じか,それよりも極端なデータが得られる確率について教えてくれる。
薬が有効である確率については教えてくれないのだ。
p値が小さければ証拠としてはより強力なものになる。
しかし,薬が有効である確率を計算するには,基準率を考慮に入れなくてはならないだろう。
長らく理論上の存在でしかなかったヒッグス粒子という素粒子が存在する証拠を,物理学者が大型ハドロン衝突型加速器を用いて発見したということがあった。
このとき,どのニュース記事も「この結果が単なる偶然である確率は,174万分の1しかない」といったような形で,確率を挙げようとしていた。
だが,挙げられた数値は情報源ごとに異なっていた。
基準率を無視したり,p値を誤って解釈したりした上に,基準率もp値も正確に計算できなかったのだ。
だから,誰かがp値が小さいことを挙げて,自分の研究は多分正しいだろうと述べていたとしたら,実際には誤りである確率がほとんど間違いなく高いことを思い出すようにしよう。
開発初期段階の薬の試験(初期段階の薬のほとんどが試験を切り抜けられない)のように,ほとんどの検定された仮説が偽となるような分野においては,p<0.05となる統計的に有意な結果のほとんどが実際にはまぐれあたりである可能性が高い。
ちよつとしたクイズ
2002年のある研究で,統計を学ぶ学生の圧倒的大多数が,そして講師もがp値に関する簡単なクイズに答えられなかったという結果が出ている。
p値の本当の意味を理解しているかを確かめるために,このクイズを解いてみよう。
フィクシトルとソルヴィクスという2つの薬の試験をしているとしよう。
処置群は2つあり,一方はフィクシトルを服用し,もう一方はソルヴィクスを服用する。
そして,その後で何らかの標準的な課題(例えば,体力テスト)のできを測定する。
そして,単純な有意性検定で各群の平均得点を比較し,p=0.01という結果を得た。
このことは平均の間に統計的有意差があることを示唆する。
この前提のもとで,以下の各項目の正誤を判定してみよう。
1.帰無仮説(「平均に差がない」)が誤りであることを完全に示した。
2.帰無仮説が真である確率が1%ある。
3.対立仮説(「平均に差がある」)が正しいことを完全に示した。
4.対立仮説が正しい確率を導き出すことは可能である。
5.帰無仮説の棄却を決めた場合,その判断が間違っている確率が分かる。
6.もし何度も実験を繰り返した場合,繰り返された実験の99%で有意な結果が得られるという意味で,信頼のおける実験結果が得られた。
最初の5つの項目は基準率を無視している。
そして、最後の項目は実験のp値でなく,検定力について問うているものだ。
p値が小さいことを引き合いに出して、誤差がありえないとするニュース記事はしばしば見受けられるが、これは誤解を招くものであり正確な解釈ではない。具体的には「p = 0.0001だから、統計的な偶然としてこの結果が出てくるのは1万回に1度しかない」といった形で述べられることが多いが、実際にはこれは正しい解釈ではないのだ。p値の本来の意味を理解するためには、その定義に立ち返る必要がある。p値とは、仮説検定の文脈において、真の効果がない、すなわち帰無仮説が真であると仮定したときに、観測されたデータと同じか、あるいはそれ以上に極端なデータが出現する確率を示すものである。ここで重要なのは、p値は薬や処置が有効である確率を示すものではなく、あくまで帰無仮説のもとでの確率を提供しているという点だ。このため、「p値が小さい=薬が有効である」という解釈は間違いである。特に医薬品や新薬の試験において、p値が0.05未満で統計的に有意とされる場合も、その結果が本当に意味のあるものかどうかは注意が必要である。例えば、ある研究ではp < 0.05という閾値を用いた場合に、統計的に有意な結果の中で実際には偶然によるものが約38%も存在していたと報告されている。この現象は「基準率の誤り(base rate fallacy)」として知られている。つまり、たとえp値が小さく統計的に有意であっても、その結果を解釈する際には背景の確率や基準率を考慮する必要があるのだ。具体的な例を挙げると、物理学の分野ではヒッグス粒子の発見がニュースとなった際に、報道は「この結果が偶然である確率は174万分の1しかない」といった形で示していた。しかし、これらの数値は情報源ごとに異なっており、基準率を無視していたり、p値を誤って解釈していたりする場合が多かった。統計的有意性は誤解されやすく、特に新薬開発や科学研究の初期段階では顕著である。初期段階の薬の試験では、その多くが試験を通過しないことからわかるように、検定された仮説の大半が偽である可能性が高い。したがって、p < 0.05という統計的に有意な結果が得られても、それが実際に意味を持つものかどうかは慎重に評価する必要がある。さらに、p値に基づいた誤解は統計を専門とする人々の間でも広がっている。2002年に行われたある研究では、統計を学ぶ学生や講師ですらp値の本当の意味を正しく理解しておらず、簡単なクイズに正解できなかったという結果が示されている。このことは、p値が学問的には重要でありながら、その解釈がいかに困難で誤解されやすいかを物語っている。具体例として、フィクシトルとソルヴィクスという2つの薬の試験を行い、処置群にそれぞれの薬を服用させ、その後に標準的な体力テストなどの課題で成果を測定したとしよう。そして、単純な有意性検定で各群の平均得点を比較し、p=0.01という結果を得た場合を考える。このp値は、観測された差が統計的に有意であることを示しているが、それはあくまで「平均に差がない」という帰無仮説のもとでの確率にすぎない。この結果から以下の各項目を判定することが求められる。1.帰無仮説(「平均に差がない」)が誤りであることを完全に示した。2.帰無仮説が真である確率が1%である。3.対立仮説(「平均に差がある」)が正しいことを完全に示した。4.対立仮説が正しい確率を導き出すことは可能である。5.帰無仮説の棄却を決めた場合、その判断が間違っている確率がわかる。6.もし何度も実験を繰り返した場合、繰り返された実験の99%で有意な結果が得られるという意味で、信頼のおける実験結果が得られた。これらの項目について、1から5は基準率を無視しているため正確な判断ではなく、6はp値ではなく検定力について問うものである。つまり、p値の小ささだけを頼りに研究の有効性や正当性を主張することは危険であり、特に基準率や検定力を無視した場合、結論を誤る可能性が高いことを忘れてはならない。これを念頭に置きつつ、研究や実験の解釈を行うことで、より正確な理解が得られるだろう。
関連記事