検定力不足試験がもたらす見逃しの危険性【ChatGPT統計解析】
検定力が不足している試験の危険性は大きい。例えば、フィクシトルとソルヴィクスという2つの薬を同じ条件下で試験した場合、副作用が稀なため、100人ずつの試験でも数人にしか重大な副作用が見られない。これにより差異があっても確証を得ることが難しい。検定力が不十分だと、統計的有意差を検出できない試験が増え、本来の違いを見逃す。検定力が0.8以上であれば効果を検出できる確率が80%となり望ましいが、実際に検定力を計算する研究者は少なく、主要医学誌でも事前に検定力を計算した論文は3%未満に過ぎない。否定的な結果を報告した試験の多くが十分なデータを持たず、50%の差を検出する力さえ持たない試験も多い。特に神経科学では検定力が不足し、中央値の研究で効果を検出できる確率は20%のみであり、データを補正するために動物を使った研究が多数行われ、倫理的問題を引き起こす。検定力不足の試験は効果発見に多くの試験と動物を要し、倫理委員会は検出力が不足する試験の承認を避けるべきだ。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
検定力が足りない危険性
フィクシトルとソルヴィクスという2つの異なった薬を同じ条件で試験することを考えてみよう。
どちらが安全か知りたいのだが,副作用はめったに起きない。
だから,たとえ2つの薬をそれぞれ100人の患者に対して試験したとしても,各グループでほんのわずかな大にしか重大な副作用が起こらないだろう。
表が出る割合が50%のコインと51%のコインの違いを検出するのが難しいのと同様に,副作用が起きる割合が3%のものと4%のものの違いを検出するのは難しいのだ。
フィクシトルを服用した大のうち4人に重大な副作用が起こり,ソルヴィクスを服用した大のうち3人だけに重大な副作用が起こったとしたら,その違いがフィクシトルによるものかどうか確証を持って言うことができない。
ある試験において,求める効果を検出する力が十分にないとき,その試験は検定力が足りない(underpowered)と言う。
検定力の計算は医学に関する試験において必要不可欠であろう。
科学者は,新しい薬の試験のためにどれだけの患者が必要なのかについて知りたいことだろう。
そして,検定力をちょっと計算することでその答えが得られる。
一般に,科学者は検定力が0.8以上あれば満足する。
これは,想定された大きさの実際の効果を検出できる確率が80%であることに対応する(真の効果が本当はもっと大きいものだったとしたら,その研究の検定力はさらに高くなる)。
しかし,この計算をする科学者はほとんどいないし,学術誌に載った論文で検定力に触れているものはほとんどない。
権威ある学術誌の「サイエンス」と「ネイチャー」で,研究開始前に検定力を計算している論文は3%未満だ。
実際,十分なデータがないために極めて大きな違い以外は検出できないということに言及せず,「有害な影響に関して,グループ間に統計的有意差はない」と結論づけている試験はたくさんある。
こうした試験の1つが,2つの薬の副作用を比べるものならば,一方がもう一方に比べてずっと危険かもしれないのに,医者が誤って2つの薬は同じぐらい安全だと考えてしまうかもしれない。
もしかして,これは珍しい副作用だけに関わる問題なのだろうか。
あるいは,弱い効果しか持たない薬だけに関わる問題なのだろうか。そうではない。
1975年から1990年までの間に権威ある医学誌に公刊された研究から抽出されたある標本では,否定的な結果を報告したランダム化比較試験の5分の4以上で,処置群間の主要評価項目の25%の差を検出するのに十分なデータを集めていなかった。
つまり,たとえある薬が他の薬に比べて症状を25%減らすとしても,その薬がより効果的だと結論づけるために十分なデータがないことになる。
さらに,否定的な結果を示した試験の3分の2近くが, 50%の差を検出する検定力がなかった。
ガン研究での試験に関する最近の研究も同様の結果を示している。
主要評価項目の変数における大きな差だったとしても,それを検出するための十分な検定力があった研究は,否定的な結果の公刊された研究の約半数に過ぎない。
こうした研究のうち,標本の大きさが不足していることについて説明しているものは10%に満たない。
同様の問題は,医学の他の分野に一貫して見られる。
神経科学では,問題はさらに悲惨だ。
個々の神経科学の研究で集められるデータが非常に少ないために,中央値にあたる研究で,探し求めている効果を検出できる可能性は20%しかない。
このことを補正するには,同じ効果を調べている複数の神経科学の論文について,これらの研究が集めたデータをまとめるという方法がある。
しかし,神経科学の研究の多くで実験動物が用いられるので,この事態は大きな倫理的問題を引き起こす。
個々の研究の検定力が足りない場合,多数の動物を使った多数の研究が終了して解析されてからでないと本当の効果は発見されないことになるだろう。
最初にしっかりと研究が行われるよりずっと多くの実験動物を使ってしまうのだ。
倫理委員会は、求める効果を検出できない試験だと分かっていれば,その試験を承認すべきでない。
検定力が不足している試験の危険性は非常に深刻であり、研究や臨床試験の信頼性に大きな影響を及ぼす可能性がある。例えば、フィクシトルとソルヴィクスという2つの薬を同じ条件下で試験し、どちらが安全かを評価しようとする場合を考えてみる。このような試験では、副作用は非常に稀にしか発生しないため、仮に各薬を100人ずつの患者に投与したとしても、試験の結果として各グループでほんのわずかな患者にしか重大な副作用が起こらないだろう。このような状況では、コインの表が出る確率が50%のものと51%のものを見分けることが難しいのと同じように、実際に副作用の発生割合が3%の薬と4%の薬の差異を検出することは極めて難しいのである。仮にフィクシトルを服用した100人のうち4人に重大な副作用が起こり、ソルヴィクスを服用した100人のうち3人だけに重大な副作用が見られた場合でも、その違いがフィクシトルによるものかどうかを確信を持って言うことは難しい。このような試験は統計学的な力が不足しており、その結果、検定力が足りない(underpowered)と評価される。検定力が不十分な試験は、実際には存在する効果を見逃すリスクが高くなる。医学や科学研究において求める効果を確実に検出するためには、検定力を計算して適切なサンプルサイズを確保することが必要不可欠である。科学者は新しい薬の試験のためにどの程度の被験者が必要かを知りたいと考えるだろうし、検定力を計算することでその答えを得ることができる。一般的に、科学者は検定力が0.8以上であれば満足する傾向がある。これは、ある効果の真の大きさが想定されているとき、その効果を検出できる確率が80%であることを意味し、もし真の効果が想定よりも大きければ、その研究の検定力はさらに高くなる。しかしながら、検定力の計算を行っている科学者は少なく、その重要性が十分に認識されていない。事実、学術誌に掲載された論文の中でも、検定力に関して言及しているものは稀であり、権威ある学術誌「サイエンス」や「ネイチャー」でさえも、研究開始前に検定力を計算している論文は全体の3%未満に留まっているのが実情である。十分なデータが収集されていないために、実際には存在する大きな効果を検出できない試験も多く、その結果、「有害な影響に関して、グループ間に統計的有意差はない」という結論を下す試験が多い。このような試験が、例えば2つの薬の副作用を比較するものである場合、一方の薬がもう一方よりも危険であるにもかかわらず、医師は誤って「両薬は同程度に安全である」と誤解してしまう可能性がある。これは稀な副作用に限った問題ではなく、効果が弱い薬に関わる問題でもない。実際、1975年から1990年の間に権威ある医学誌に掲載された研究から抽出されたデータによれば、否定的な結果を報告したランダム化比較試験の5分の4以上で、処置群間の主要評価項目の25%の差を検出するのに必要なデータを集めていなかったという結果が示されている。つまり、たとえある薬が他の薬に比べて25%の効果を示すものであったとしても、その差を検出し、効果的だと結論づけるために十分なデータを収集できていないことが多いのである。さらに、否定的な結果を示した試験の3分の2近くが、効果が50%の差を検出するのに十分な検定力を持っていなかった。これによって、実際には存在する効果を見逃し、真実と異なる結論を導き出すリスクが高まる。最近のガン研究に関する試験でも、同様の問題が報告されている。主要評価項目の変数において大きな差があったとしても、その差を検出するのに十分な検定力を備えている研究は、否定的な結果を報告した研究全体の約半数に過ぎなかった。さらに、このような研究の中で、標本の大きさが不足していることを適切に説明しているものはわずか10%未満であることが分かっている。これらの事実は、医学だけでなく神経科学をはじめとする他の科学分野でも一貫して見られる問題である。特に神経科学では、この問題はさらに顕著である。個々の研究で収集されるデータが非常に限られているため、中央値の研究において探し求める効果を検出できる確率はわずか20%しかない。このような状況では、同じ効果を調べている複数の研究のデータをまとめて統計的に解析することで検定力を補正することが求められるが、この手法には倫理的な問題が伴う。神経科学の研究の多くでは、実験動物が用いられているため、データを補正するために多数の研究で大量の動物を用いることは大きな倫理的懸念を引き起こす。個々の研究で十分な検定力がない場合、探し求める効果を発見するために多くの研究が終了し、解析されるまで待たなければならないことがあり、その間に数多くの動物が使用されてしまう。これは、最初から適切な規模で試験を実施すれば回避できたはずのことである。倫理委員会は求める効果を検出する能力がないと判断される試験については、その試験の実施を承認しないことが望ましい。このような試験を避けるためには、事前に検定力を計算し、必要なサンプルサイズを確保することで、十分な検定力を持った研究計画を立てることが重要である。適切な検定力を持たない試験は、科学的な結論の信頼性を損なうだけでなく、貴重なリソースの無駄遣いや倫理的な問題を引き起こす。科学者や研究者は、検定力の重要性を認識し、研究開始前にしっかりと計算を行って試験を設計することが求められる。研究がしっかりと検定力を持っていることで、得られた結果が科学的に妥当であることを保証し、研究成果の信頼性を向上させることができる。検定力を考慮しないまま実験を進めた場合、その結果は偶然性に左右される可能性が高まり、真の効果を適切に検出できないばかりか、誤った結論を導き出すリスクも増大する。研究コミュニティ全体がこの問題を認識し、検定力を適切に考慮した研究計画を推進することが重要である。
関連記事