検定力が足りない危険性|【統計学・統計解析講義応用】
検定力が足りない危険性
フィクシトルとソルヴィクスという2つの異なった薬を同じ条件で試験することを考えてみよう。
どちらが安全か知りたいのだが,副作用はめったに起きない。
だから,たとえ2つの薬をそれぞれ100人の患者に対して試験したとしても,各グループでほんのわずかな大にしか重大な副作用が起こらないだろう。
表が出る割合が50%のコインと51%のコインの違いを検出するのが難しいのと同様に,副作用が起きる割合が3%のものと4%のものの違いを検出するのは難しいのだ。
フィクシトルを服用した大のうち4人に重大な副作用が起こり,ソルヴィクスを服用した大のうち3人だけに重大な副作用が起こったとしたら,その違いがフィクシトルによるものかどうか確証を持って言うことができない。
ある試験において,求める効果を検出する力が十分にないとき,その試験は検定力が足りない(underpowered)と言う。
検定力の計算は医学に関する試験において必要不可欠であろう。
科学者は,新しい薬の試験のためにどれだけの患者が必要なのかについて知りたいことだろう。
そして,検定力をちょっと計算することでその答えが得られる。
一般に,科学者は検定力が0.8以上あれば満足する。
これは,想定された大きさの実際の効果を検出できる確率が80%であることに対応する(真の効果が本当はもっと大きいものだったとしたら,その研究の検定力はさらに高くなる)。
しかし,この計算をする科学者はほとんどいないし,学術誌に載った論文で検定力に触れているものはほとんどない。
権威ある学術誌の「サイエンス」と「ネイチャー」で,研究開始前に検定力を計算している論文は3%未満だ。
実際,十分なデータがないために極めて大きな違い以外は検出できないということに言及せず,「有害な影響に関して,グループ間に統計的有意差はない」と結論づけている試験はたくさんある。
こうした試験の1つが,2つの薬の副作用を比べるものならば,一方がもう一方に比べてずっと危険かもしれないのに,医者が誤って2つの薬は同じぐらい安全だと考えてしまうかもしれない。
もしかして,これは珍しい副作用だけに関わる問題なのだろうか。
あるいは,弱い効果しか持たない薬だけに関わる問題なのだろうか。そうではない。
1975年から1990年までの間に権威ある医学誌に公刊された研究から抽出されたある標本では,否定的な結果を報告したランダム化比較試験の5分の4以上で,処置群間の主要評価項目の25%の差を検出するのに十分なデータを集めていなかった。
つまり,たとえある薬が他の薬に比べて症状を25%減らすとしても,その薬がより効果的だと結論づけるために十分なデータがないことになる。
さらに,否定的な結果を示した試験の3分の2近くが, 50%の差を検出する検定力がなかった。
ガン研究での試験に関する最近の研究も同様の結果を示している。
主要評価項目の変数における大きな差だったとしても,それを検出するための十分な検定力があった研究は,否定的な結果の公刊された研究の約半数に過ぎない。
こうした研究のうち,標本の大きさが不足していることについて説明しているものは10%に満たない。
同様の問題は,医学の他の分野に一貫して見られる。
神経科学では,問題はさらに悲惨だ。
個々の神経科学の研究で集められるデータが非常に少ないために,中央値にあたる研究で,探し求めている効果を検出できる可能性は20%しかない。
このことを補正するには,同じ効果を調べている複数の神経科学の論文について,これらの研究が集めたデータをまとめるという方法がある。
しかし,神経科学の研究の多くで実験動物が用いられるので,この事態は大きな倫理的問題を引き起こす。
個々の研究の検定力が足りない場合,多数の動物を使った多数の研究が終了して解析されてからでないと本当の効果は発見されないことになるだろう。
最初にしっかりと研究が行われるよりずっと多くの実験動物を使ってしまうのだ。
倫理委員会は、求める効果を検出できない試験だと分かっていれば,その試験を承認すべきでない。
関連記事