最初に成功しなかったらもう一度|【統計学・統計解析講義応用】
最初に成功しなかったらもう一度
基準率の誤りは,統計的に有意な結果が,p<0.05という有意水準から予期されるところよりも頻繁に偽陽性になることを示す。
有意差検定が1回では済まないことがよくある現代の研究では、この誤りの影響はさらに大きなものになる。
研究にあたっては、最も重要な効果を探し出すために、さまざまな要因を比較することがしばしばある。
例えば,ニキビに対する効果をゼリービーンズの色ごとに検定することを通じて,ゼリービーンズがニキビを引き起こすかどうかを調べる状況を想像してみよう。
マンガに示されているように比較を何度も行えば,偽陽性が起きる可能性が何度も出てくることになる。
検定を実施すればするほど,少なくとも1か所で偽陽性となる確率は高くなるのだ。
例えば,まったくニキビを引き起こさないゼリービーンズのフレーバー20種類に対して検定を行い,p<0.05で有意となるような相関があるかを調べたとしたら,偽陽性となる結果が少なくとも1つ得られる確率は64%になる。
もし45種類のフレーバーに対して検定すれば,少なくとも1つが偽陽性となる碓率は90%という高い水準になる。
もしかわりに相関がゼロでないか調べるために信頼区間を使ったとしても,同じ問題が起きるだろう。
多重比較の中には,ゼリービーンズ20色を検定する例ほど明白でないものもある。
例えば,患者の症状を12週間にわたって追跡して,すべての週で有意な利益があるかを検定してみよう。
さあ,これで12回比較することになる。
危険な副作用の候補23種類について,副作用が発生するかを確かめてみるとしたらどうなるだろうか。
ああ,罪深いことになってしまった。
原子力発電所への近さ,牛乳の消費量,年齢,男のいとこの数,好きなピザのトッピング,今の靴下の色,そして他の測定しやすい要因をたくさん問うような10ページの質問紙を送ってみよう。
そのうちの少なくとも1つがガンと関係していることをおそらく発見することになるだろう。
量子物理学者は,これをどこでも効果(look-elsewhere effect; LEE)と呼ぶ。
大型ハドロン衝突型加速器を用いたヒッグス粒子の探索のような実験では,新しい素粒子の存在を示す小さな異常を探すために,素粒子の衝突データを調べることが必要となる。
例えば,5ギガ電子ボルトのエネルギーにおける1つの異常の統計的有意性を計算するために,物理学者は「5ギガ電子ボルトにおいて,これと同じ大きさの異常かこれよりも大きな異常に遭遇する可能性はどれだけあるだろうか」という問いを立てる。
だが,物理学者が他のところを見る可能性もあっただろう。
というのも,エネルギーの広い範囲で異常を探していて,そのうちどれもが偽陽性を引き起こすことがありえるからだ。
物理学者は,このことについて説明を与えて偽陽性率を正しく制限する複雑な手法を発展させてきた。
もし一度に多数の比較をした上で,しかも全体の偽陽性率を統制したければ,どの違いも実際には存在しないという仮定のもとでp値を計算すべきだ。
もし20種類の異なったゼリービーンズを検定したのならば,20種類のうち1種類がにきびを「引き起こす」結果になったとしても驚きはしないだろう。
しかし,それぞれの比較が単独で成立しているかのように特定のフレーバーについてp値を計算すれば,20種類のうちのどれでも良いから1種類というわけではなく,この特定のグループの運が良くて,ありえなさそうなことが起きた確率を計算していることになる。
そういうわけで,発見した異常が,実際よりもずっと有意なものに見えるのだ。
1980年代の医学的試験に関する調査によれば,1回の試験で治療に関する比較は平均30回行われていた。
これらの医学的試験の半数以上において,研究者が多くの比較をしてしまったために,偽陽性の可能性が高くなってしまっている。
このことにより,統計的に有意な結果の報告に対して疑問が投げかけられている。
研究者は,統計的に有意な効果を発見したのかもしれないが,それは単なる偽陽性だった可能性がある。
心理学や他の統計を多用する分野でも似たような状況が見られる。
多重比較の問題を解決する手法が,いくつか存在している。
例えば,ボンフェローニ法(Bonferroni correction method)では,普段と同じようにp値を計算するものの、n回比較したとしたら有意差があるとする基準をp<0.05/nにしなくてはならないとしている。
この方法は,偽陽性の起きる確率を,p<0.05という基準のもとで1回だけ比較したのと同じぐらいに下げる。
だが,想像がつくだろうが,統計的に有意だという結論を出すために一段と強い相関を要求してしまうことになるため,検定力は下がってしまう。
いくつかの分野では,多重比較の問題についての認識が深まったために,ここ数十年で検定力が組織的に下がってしまっている。
こうした実践上の問題に加えて,哲学的観点からボンフェローニ法に反対する研究者もいる。
ボンフェローニ法には多重比較で検定されるすべての帰無仮説が真だという暗黙の仮定がある。
だが,2つの母集団の違いがちょうどゼロだったり,ある薬の効果が偽薬とまったく同じだということはほとんどありそうにない。
それならば,そもそもなぜ帰無仮説が真だと仮定しなくてはならないのだろうか。
この反対意見をどこかで聞いたことがあると思ったとしたら,それは前に聞いたことがあるからだ。
この反対意見は,一般に帰無仮説の有意性の検定に対して行われる議論で,ボンフェローニ法に限られたものではない。
単にそれぞれの効果がゼロであるかを判断するだけのことに比べて,違いの大きさを正確に推定することの方がずっとおもしろい話だ。
だから,有意性検定のかわりに信頼区間や効果量を使うほうが理にかなっているのだ。
関連記事