偽陽性増加と多重比較の統計的落とし穴【ChatGPT統計解析】
基準率の誤りは有意水準p<0.05に基づく統計検定で偽陽性が多発する現象である。特に現代の研究では、複数の比較を行うためこの影響が増大する。例えばゼリービーンズの色によるニキビ発生の検定では、比較回数が増えると偽陽性率が高くなる。20種のフレーバーで検定すると偽陽性の確率は64%、45種では90%に達する。物理学でもこの問題は「どこでも効果」として認識されており、広範なエネルギー範囲で探求する際の偽陽性対策が必要だ。対策としてボンフェローニ法が用いられるが、検定力が下がる欠点もあり、全ての帰無仮説が真である前提にも異議がある。そのため、信頼区間や効果量を用いた方が意義深いとされている。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
最初に成功しなかったらもう一度
基準率の誤りは,統計的に有意な結果が,p<0.05という有意水準から予期されるところよりも頻繁に偽陽性になることを示す。
有意差検定が1回では済まないことがよくある現代の研究では、この誤りの影響はさらに大きなものになる。
研究にあたっては、最も重要な効果を探し出すために、さまざまな要因を比較することがしばしばある。
例えば,ニキビに対する効果をゼリービーンズの色ごとに検定することを通じて,ゼリービーンズがニキビを引き起こすかどうかを調べる状況を想像してみよう。
マンガに示されているように比較を何度も行えば,偽陽性が起きる可能性が何度も出てくることになる。
検定を実施すればするほど,少なくとも1か所で偽陽性となる確率は高くなるのだ。
例えば,まったくニキビを引き起こさないゼリービーンズのフレーバー20種類に対して検定を行い,p<0.05で有意となるような相関があるかを調べたとしたら,偽陽性となる結果が少なくとも1つ得られる確率は64%になる。
もし45種類のフレーバーに対して検定すれば,少なくとも1つが偽陽性となる碓率は90%という高い水準になる。
もしかわりに相関がゼロでないか調べるために信頼区間を使ったとしても,同じ問題が起きるだろう。
多重比較の中には,ゼリービーンズ20色を検定する例ほど明白でないものもある。
例えば,患者の症状を12週間にわたって追跡して,すべての週で有意な利益があるかを検定してみよう。
さあ,これで12回比較することになる。
危険な副作用の候補23種類について,副作用が発生するかを確かめてみるとしたらどうなるだろうか。
ああ,罪深いことになってしまった。
原子力発電所への近さ,牛乳の消費量,年齢,男のいとこの数,好きなピザのトッピング,今の靴下の色,そして他の測定しやすい要因をたくさん問うような10ページの質問紙を送ってみよう。
そのうちの少なくとも1つがガンと関係していることをおそらく発見することになるだろう。
量子物理学者は,これをどこでも効果(look-elsewhere effect; LEE)と呼ぶ。
大型ハドロン衝突型加速器を用いたヒッグス粒子の探索のような実験では,新しい素粒子の存在を示す小さな異常を探すために,素粒子の衝突データを調べることが必要となる。
例えば,5ギガ電子ボルトのエネルギーにおける1つの異常の統計的有意性を計算するために,物理学者は「5ギガ電子ボルトにおいて,これと同じ大きさの異常かこれよりも大きな異常に遭遇する可能性はどれだけあるだろうか」という問いを立てる。
だが,物理学者が他のところを見る可能性もあっただろう。
というのも,エネルギーの広い範囲で異常を探していて,そのうちどれもが偽陽性を引き起こすことがありえるからだ。
物理学者は,このことについて説明を与えて偽陽性率を正しく制限する複雑な手法を発展させてきた。
もし一度に多数の比較をした上で,しかも全体の偽陽性率を統制したければ,どの違いも実際には存在しないという仮定のもとでp値を計算すべきだ。
もし20種類の異なったゼリービーンズを検定したのならば,20種類のうち1種類がにきびを「引き起こす」結果になったとしても驚きはしないだろう。
しかし,それぞれの比較が単独で成立しているかのように特定のフレーバーについてp値を計算すれば,20種類のうちのどれでも良いから1種類というわけではなく,この特定のグループの運が良くて,ありえなさそうなことが起きた確率を計算していることになる。
そういうわけで,発見した異常が,実際よりもずっと有意なものに見えるのだ。
1980年代の医学的試験に関する調査によれば,1回の試験で治療に関する比較は平均30回行われていた。
これらの医学的試験の半数以上において,研究者が多くの比較をしてしまったために,偽陽性の可能性が高くなってしまっている。
このことにより,統計的に有意な結果の報告に対して疑問が投げかけられている。
研究者は,統計的に有意な効果を発見したのかもしれないが,それは単なる偽陽性だった可能性がある。
心理学や他の統計を多用する分野でも似たような状況が見られる。
多重比較の問題を解決する手法が,いくつか存在している。
例えば,ボンフェローニ法(Bonferroni correction method)では,普段と同じようにp値を計算するものの、n回比較したとしたら有意差があるとする基準をp<0.05/nにしなくてはならないとしている。
この方法は,偽陽性の起きる確率を,p<0.05という基準のもとで1回だけ比較したのと同じぐらいに下げる。
だが,想像がつくだろうが,統計的に有意だという結論を出すために一段と強い相関を要求してしまうことになるため,検定力は下がってしまう。
いくつかの分野では,多重比較の問題についての認識が深まったために,ここ数十年で検定力が組織的に下がってしまっている。
こうした実践上の問題に加えて,哲学的観点からボンフェローニ法に反対する研究者もいる。
ボンフェローニ法には多重比較で検定されるすべての帰無仮説が真だという暗黙の仮定がある。
だが,2つの母集団の違いがちょうどゼロだったり,ある薬の効果が偽薬とまったく同じだということはほとんどありそうにない。
それならば,そもそもなぜ帰無仮説が真だと仮定しなくてはならないのだろうか。
この反対意見をどこかで聞いたことがあると思ったとしたら,それは前に聞いたことがあるからだ。
この反対意見は,一般に帰無仮説の有意性の検定に対して行われる議論で,ボンフェローニ法に限られたものではない。
単にそれぞれの効果がゼロであるかを判断するだけのことに比べて,違いの大きさを正確に推定することの方がずっとおもしろい話だ。
だから,有意性検定のかわりに信頼区間や効果量を使うほうが理にかなっているのだ。
基準率の誤りは、統計的に有意な結果が有意水準p<0.05に基づいて期待される頻度よりも多く発生し、偽陽性となる現象を指します。これは、実際には効果がないのに偶然にも統計的に有意とされる結果が出る場合を意味します。特に現代の研究では、1回の検定では終わらず、複数の検定が繰り返されることが多く、この誤りの影響は増大します。研究では、最も重要な効果を見つけるために多様な要因を比較することが一般的です。たとえば、ニキビに対する効果を調べる際、ゼリービーンズの色ごとに効果を検定して、ゼリービーンズがニキビを引き起こすかどうかを判断することを想像してみてください。このようなケースでは、何度も比較を繰り返すことで、偽陽性の結果が出る可能性が増します。検定の回数が増えるほど、少なくとも1回は偽陽性が発生する確率が高まります。具体的に言えば、まったくニキビを引き起こさない20種類のゼリービーンズフレーバーを検定し、p<0.05の基準で有意な結果があるかを調べた場合、少なくとも1つの偽陽性の結果が得られる確率は約64%に達します。もし45種類のフレーバーで同様の検定を行えば、その確率は90%にまで上昇します。このような多重比較の問題は、単に見かけの有意性が存在してしまう現象を引き起こします。信頼区間を使って相関がゼロでないかを調べたとしても、同様の問題が生じます。多重比較の中には、ゼリービーンズの色を比較するほど分かりやすくはないケースもあります。例えば、患者の症状を12週間追跡してすべての週で有意な利益があるかを検定したとしましょう。これは12回の比較を意味します。危険な副作用の候補となる要素を23種類比較して副作用が発生するかどうかを確認した場合も、似たようなことが起きます。このような状況で偽陽性の結果が生じることは避けられません。さらに、原子力発電所への近さ、牛乳の消費量、年齢、親族関係、ピザのトッピング、靴下の色など、測定可能な多くの要因を含む質問紙を使って、調査を行ったとします。その中の少なくとも1つが癌と関係していることを発見することがあるかもしれません。物理学では、この現象は「どこでも効果(look-elsewhere effect; LEE)」と呼ばれ、特に大型ハドロン衝突型加速器を用いてヒッグス粒子の探索を行うような実験で問題となります。物理学者たちは、新しい素粒子の存在を示す小さな異常を発見するために、衝突データを調査します。例えば、5ギガ電子ボルト(GeV)のエネルギーにおける異常の統計的有意性を評価する際、物理学者は「このエネルギーで同じ大きさまたはそれ以上の異常に遭遇する可能性はどれくらいあるのか」といった問いを立てて計算します。しかし、物理学者が異常を探している範囲は広範囲に及び、その中で偽陽性が発生する可能性もあります。物理学者たちは、この問題を解決し、偽陽性率を制御するために複雑な統計手法を発展させてきました。もし一度に多数の比較を行い、全体の偽陽性率を制御したいのであれば、すべての違いが実際には存在しないという前提でp値を計算する必要があります。20種類の異なるゼリービーンズの検定を行った結果、たとえ1種類が有意にニキビを「引き起こす」と示されても、驚きはないでしょう。しかし、各比較が独立しているかのように特定のフレーバーについてp値を計算すると、20種類の中で1つの偶然の結果を過度に重視することになります。このため、発見された異常が本来よりも有意なものに見えてしまいます。1980年代の医学的試験に関する調査によると、治療に関する比較が1回の試験で平均30回行われていました。これにより、多くの試験で研究者が複数の比較を行っているために偽陽性の可能性が高まっていることが示されました。統計的に有意な結果が報告されても、それが本当に意味のある発見なのか、それとも単なる偽陽性なのかを疑う理由があります。心理学やその他の統計を多用する分野でも同様の状況が見られます。多重比較問題を解決するためにはいくつかの手法が提案されています。例えば、ボンフェローニ補正(Bonferroni correction)では、通常通りにp値を計算した後、比較の回数nで割ったp<0.05/nという基準を用いて有意差を判断します。この方法により、複数回の検定によって生じる偽陽性の確率を1回のp<0.05の基準と同じレベルに低下させることができます。しかし、この方法には欠点があり、統計的に有意であると判断するための基準が厳しくなるため、検定力が低下します。これはつまり、実際に効果が存在していてもそれを見逃してしまうリスクが高まることを意味します。多くの分野で、この問題に対する認識が深まると同時に検定力の低下が組織的に進行しました。ボンフェローニ法に対する批判は実践上の理由だけでなく、哲学的な観点からも提起されています。ボンフェローニ法は多重比較で検定されるすべての帰無仮説が真であることを暗黙のうちに仮定しています。しかし、実際には2つの母集団の違いがちょうどゼロであることや、薬の効果が偽薬とまったく同じであることは稀です。したがって、帰無仮説が真であると仮定すること自体に疑問を持つ研究者もいます。この批判は有意性検定一般に対してもなされる議論で、ボンフェローニ法に限ったものではありません。帰無仮説がゼロであるか否かをただ判断するだけではなく、実際の効果の大きさを正確に推定する方が有意義であり、そのため信頼区間や効果量を用いる方が理にかなっていると言われます。信頼区間は、結果の不確実性を示し、効果がどれほど大きいかを直接的に示します。例えば、治療の効果の大きさを知ることは、単にp値による有意性の判断を超えて、より実践的な情報を提供します。効果量は異なる研究や条件を比較する際に役立つ尺度としても重要です。ボンフェローニ法が慎重な判断を必要とする理由は、このように多重比較の設定で偽陽性を抑えるために設けられた厳しい基準と関連していますが、現実的な解決策として完全ではないとされています。多重比較問題に関するより柔軟なアプローチも存在し、例えばホルム-ボンフェローニ法やベイズ的手法が研究されています。これらの手法は、比較を行う際に誤りを制御しつつ、偽陽性のリスクを適切に管理することを目的としています。
関連記事