P値の力|【統計学・統計解析講義応用】
P値の力
実験科学の多くは,つまるところ,違いを測定することに行き着く。
例えば,ある薬は他のものよりよく効くか,ある種類の遺伝子を持つ細胞は他の種類の遺伝子を持つ細胞より酵素を多く合成するか,あるタイプの信号処理アルゴリズムは他のものよりパルスをよく検出できるか,ある触媒は化学反応をより効果的に加速するかといったたぐいの問題だ。
統計は,こうしたたぐいの違いについて判断を下すために用いられる。
ただし,運や偶然変動による何らかの違いを観測することは常にある。
だから,統計学者は,運によってたやすく生じることがある違いよりも大きな違いがある
かぜ薬を試験しているとしよう。
試験対象の新薬を使うと,かぜの症状が続く期間が1日短くなる見こみがある。
このことを証明するために,かぜをひいた患者を20人見つけ,その半数に新薬を,残りの半数に偽薬を与えるとしよう。
そして,かぜの長さを調べ,新薬の使用の有無によってかぜの長さの平均がどうなるのかについて明らかにするとしよう。
だが,すべてのかぜが同じというわけではない。
平均的なかぜは1週間続くかもしれないが,数日しか続かないかぜもあるだろう。
また,2週間かそれ以上続くかぜもあるだろう。
本物の薬が与えられた10人の患者グループ全員がとても短いかぜにかかっていたということもありえる。
どうすれば,単に運の良い患者がいただけだったと示すのではなく,薬が機能すると示せるだろうか。
統計的仮説検定がこの問題に答えてくれる。
もし,典型的なかぜの症例の分布一短いかぜにかかる患者がどれくらいか,長いかぜにかかる患者がどれくらいか,平均的な長さのかぜにかかる患者がどれくらいかという大まかな情報-を知っていれば,ランダムに抽出された患者の標本で,全員が平均より長い,あるいは平均より短いかぜにかかることがどれだけありそうかについて判断できる。
仮説検定(hypothesis test、有意性検定[significance test]としても知られている)を行うことで,「薬がまったく効果がないものだった場合に,観測された結果が実験において生み出される確率はどれはどか」という問題に答えることができる。
もし,1人にしか薬を試していなければ,通常より少し早くかぜが終わったとしても意外すぎるということにはならない。
ほとんどのかぜはぴったり平均どおりに終わるわけではないのだ。
だが,1000万人の患者に薬を試したとき,偶然これらの患者全員が短いかぜにかかっただけにすぎないということはとてもありえそうにない。
薬が実際に機能したというのが,よりありえそうなことだ。
科学者はこうした直感をP値(p value)と呼ばれる概念で定量化している。
P値というのは真の効果あるいは真の違いがないという仮定のもとで,実際に観測したものと同じぐらいかさらに極端な違いを見せるデータが得られる確率のことだ。
だから,薬を与えた100人の患者のかぜが平均して1日短いことが分かった場合,この結果に対する川直は,薬が実際にはまったく機能しなかった場合に,単に偶然のみによって,対照群よりもかぜが平均して1日短い確率のことなのだ。
想像がつくかもしれないが,実際は,効果の大きさーかぜが4日短いのはかぜが1日しか短くないことほどありふれたことではないーと薬を試した患者の数によって決まってくる。
P値というのは正しさを測定するものでもなければ,違いがどれだけ重大かを測定するものでもないということを忘れないようにしよう。
むしろ,P値は驚きを測定するものであると考えよう。
薬に効果がなく,2つのグループの違いに運以外の理由がないと仮定すれば、値が小さければ小さいほど,結果はより驚くべきものになり,より偶然的なものになる。
そうでなければ,仮定が誤っていて,薬が本当に機能していることになる。
P値を「本当にグループの間に違いがあるのか」という問題への答えに翻訳するには,どうすればよいだろうか。
よく使われるおおざっぱなやり方として,Pく0.05となる違いは何でも統計的に有意だとするものがある。
0.05が選ばれることに,論理的にあるいは統計学的に特別な理由があるわけではない。
しかし, 0.05というのは科学における慣習として長い間一般的に使われてきた。
P値は実験対象となっているグループの間で違いがないという仮定を行うことで機能するということに注意しよう。
これは有意性検定が直感に反するところだ。
薬が機能すると示したければ,薬が機能しない状況がデータに合わないことを示すのだ。
このため,P値の適用範囲は,打破したい仮説が数学的に表せるどんな状況に対しても広げることができる。
しかし,P値には限界がある。
P値は驚きを測定するもので,小さければ小さいほど驚くべきことを示唆することを思い出そう。
P値は効果の大きさを測定するものではない。
「この薬は4倍長生きさせる」といった極めて大きい効果を測定するか,ごく小さな効果だが非常に確実な効果を測定することで,極めて小さなP値を得ることができる。
そして,どんな薬にせよどんな処置にせよ普通は何らかの実際の効果がある。
このため,非常に小さく,しかも相対的に重要でない違いすら見つけられるほどの大量のデータを集めることで,常に統計的に有意な結果を得ることができる。
ブルース・トンプソンは以下のように記している。
「統計的有意性検定には同語反復的な論理が関わりうる。それは,何百人もの被験者のデータを集めた疲労した研究者が,多くの被験者がいたかどうかというすでに知っていることを評価するために統計的検定を行うという意味だ。なぜすでに知っているかと言うと,研究者がデータを集めて疲労したということを知っているからだ。この同語反復が,知識の集積という面で相当のダメージを生み出してきた。」
要するに,統計的に有意であることは,結果に実質的な重要性があることを意味しない。
また,統計的に有意でないことは,大した情報をもたらさない。
統計的に有意でない違いは,雑音しかないことを示しているかもしれないし,単にもっとたくさんのデータを集めることではっきりさせることができる実質的な効果を示しているのかもしれない。
仮説が真か偽かを教えてくれる数学上の道具立てはない。
仮説がデータと合っているかということしか分からないのだ。
データが乏しかったり,はっきりしなかったりすれば,結論は不確実なものになるだろう。
関連記事