検定力と検定力の足りない統計|【統計学・統計解析講義応用】
時々刻々変化する死亡率
十分な数のデータを集めないことで,実際に存在する効果を見つけられない可能性があることを見てきた。
このことによって,うまくいきそうな薬を見つけられなかったり,重大な副作用に気づかなかったりするかもしれない。
それでは,データをどれだけ集めれば良いかということは,どうすれば分かるだろうか。
検定力(statistical power)という概念がこの問題の答えになる。
ある研究における検定力とは,単なる偶然といくらかの大きさのある効果とを区別できる確率を指す。
研究に当たって,薬から得られる利益が大きければ検出するのは簡単だろうが,わずかな差を検出するのはずっと難しくなる。
検定力曲線
自分に敵対する人物が不正なコインを持っていると確信しているとしよう。
コインを投げたとき,表と裏が半々で出てくるのではなく,どちらか一方の面が出るのが60%と偏っているのだ。
そして,この偏りによって,例の敵対者はコイン投げの賭けという信じられないほどつまらない遊びでいかさまができるようになっている。
自分としては相手がいかさまをしていると疑っているのだが,どうすればそのことを証明できるだろうか。
そのコインを100回投げたときに表が出た回数を数えるだけではだめだ。
まったく不正のないコインでも常に50回表が出るとは限らない。
50回表が出るのが最もありえる結果ではあるが,そうなる確率は10%に満たない。
51回表が出たり52回表が出たりする可能性もかなり高い。
実際,不正のないコインを100回投げたとき,40回から60回表が出る確率は95%だ。
逆に,この範囲に当てはまらない回数の結果が出ることはありそうにない。
不正のないコインでは,表が出る回数が64回以上か36回以下である確率は1%にすぎない。
表が90回とか100回とか出てくることはほとんどありえない。
数学の問題を解いてみよう。
100回試行し,そのうち表が出た回数を数えるものとする。
もし,ちょうど50回表が出るという結果でなかったら,不正のないコインを投げた結果がそれ以上にずれることが起きる確率を計算する。
この確率が,p値になる。
0.05以下のp値を統計的に有意なものだと見なす。
つまり,p値が0.05以下ならば,コインに不正があると考えるわけだ。
この方法を使うことでコインが偏っていることを探り出せる可能性はどれぐらいあるだろうか。
検定力曲線(power curve)でそれが分かる。
検定力曲線の水平軸は,コインの表が出ることの真の確率で,コインがどれだけ偏っているかを示している。
垂直軸はコインがいんちきだと結論づける確率だ。
どんな仮説検定においても,検定力とは,統計的に有意な結果(この例ではp<0.05と定義されている)が得られる確率のことだ。
不正のないコインは,何度も実験をすれば,そのうち95%で,40回から60回表が出る。
だから,不正なコインについて,検定力とは,40回から60回表が出るという範囲に当てはまらない結果が得られる確率なのだ。
検定力は以下の3つの要因に影響される。
・探し求めている偏りの大きさ 巨大な偏りはわずかな偏りよりずっと検出しやすい。
・標本の大きさ より多くのデータを集めること(コイン投げの回数をより増やすこと)で小さな偏りをより簡単に検出できる。
・測定誤差 コイン投げの回数を数えるのは簡単だが,多くの実験は疲労感や抑うつ感の症状を調べる医学研究のようにもっと測定しにくい値を扱う。
偏りの大きさから話を始めよう。
コインの表が出る真の確率が0.6のとき,検定力は0.5になる。
残りの50%では,表が出る回数が60回以下となり,偏りを検出するのに失敗する。
コインを100回しか投げないというのは,偏りを偶然変動から常に区別するにはデータが足りていない。
偏りに100%近くの確率で気づくためには,表が出る確率が80%のように,信じられないほど偏っているコインでなくてはならないだろう。
もう1つの問題は,たとえコインがまったく不正のないものだったとしても,偏っていると誤って非難してしまう可能性が5%あることだ。
p<0.05となる結果は偏りを示すものとして解釈するように実験を計画したのだが,そうした結果は不正のないコインだとしても起こりうるのだ。
幸いなことに,標本の大きさを大きくすれば,感度は向上する。
コインを1000回投げれば,コインがいんちきなものかを簡単に見分けることができる。
このことは筋が通っている。
不正のないコインを1000回投げたときに,表が出ることが600回を超えることはほとんど絶対にありえない。
95%の確率で, 469回から531回表が出ることになる。
残念なことに,不正の有無を試すために敵対する人物のコインを1000回投げる時間は実際ないだろう。
十分な検定力のある検定をすることは,純粋に実践上の理由から,しばしば不可能になるのだ。
さて,表と裏を数えるのは簡単だが,かわりに知能テストを実施するとしたらどうなるだろうか。
知能指数の得点は,潜在的な真実を測定するものではない。
むしろ,測定にランダム雑音をもたらすテストの問題や被験者の気分によって,日ごとに変わりうるものだ。
2つのグループの知能指数を比較するとしたら,人ごとに違う知能の正常変動だけでなく,特定の個人の得点における偶然変動も見ることになる。
主観的な採点を要する知能テストのように変動が大きなテストは,相対的に検定力が低くなる。
データが多いことは雑音から信号を区別する助けとなる。
しかし,これは言うは易し,行うは難しだ。
多くの科学者は,探し求めているものを検出するのに十分な検定力のある研究を行うほどの資源を持っていない。
こうした科学者は,始める前から失敗することが運命付けられているのだ。
関連記事