検定力不足が研究結果に与える深刻な影響【ChatGPT統計解析】
検定力不足の問題は何十年も前から知られているが、依然として解決されていない。1960年、コーエンは普通の研究の検定力が中程度の効果を検出するのに0.48しかないと示し、多くの引用と報告がその後に続いた。1989年には、検定力がさらに低下したことが報告された。これは多重比較への対応が原因だった。検定力が無視される理由の一つは標本サイズと直感の不一致で、臨床医は「十分な数」と思い込むことが多いが、実際には大規模な標本が必要だ。数学的難易度やソフトの制限も理由であり、シミュレーションを行う方法もあるが、プログラミング知識が必要だ。科学者は有意な結果が出れば検定力不足を感じにくいが、無意義な結果が本当に違いの存在を否定するわけではない。実際には違いが存在しうるが、規模が小さいとそれを見つけるのは難しい。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
検定力が足りなくなるわけ
不思議なことに,検定力が足りない研究の問題は何十年も前から知られているのだが,この問題は今でも最初に指摘されたときと同じぐらい蔓延している。
ジェイコブ・コーエンが、「ジャーナル・オブ・アブノーマル・アンド・ソーシャル・サイコロジー」に1960年に載った研究の検定力を調べたところ,普通の研究は中ぐらいの大きさの効果を検出するための検定力が0.48しかないことが分かった。
コーエンの研究は何百回も引用され,後から同様の報告がたくさん出た。
これらの報告はみな,検定力を計算することと標本の大きさをより大きくすることの必要性を勧告するものだった。
その後, 1989年に出た報告において,コーエンの研究以降の数十年間で,普通の研究の検定力が実は減少していることが示された。
この減少は,研究者が多重比較という別の問題に注意するようになり,その問題に研究の検定力が下がるような方法で対応したために起きたものだ。
研究の検定力と多重比較の補正方法の間には不幸なトレードオフがある。
では,なぜ検定力の計算がしばしば忘れられるのだろうか。
1つの理由として,標本の大きさに関する直観と検定力の計算結果とが一致しないことが挙げられる。
たとえ検定力が非常に悪くても「きっと十分な数の被験者がいる」と考えやすいのだ。
例えば,心臓発作の新しい治療手順を試験しようとしていて,新手順で死亡のリスクが20%から10%に半減すると期待しているとしよう。
この場合,「50人の患者にこの方法を試して違いが見られなかったら,利益が小さすぎて有用なものではないだろう」と思ってしまうかもしれない。
だが,この効果を検出する検定力を80%にしたければ,実際には統制群と処置群でそれぞれ200人ずつ,つまり400人もの患者が必要になる。
臨床医にとって十分だと思える標本の数は実際にはかなり少ないということに,臨床医白身が気づいていないだけなのかもしれない。
検定力の計算があまり見られないことに関するもう1つの説明として,数学が挙げられるだろう。
検定力を解析的に計算することは,難しかったり,完全に不可能だったりすることがありえる。
しかも,検定力を計算する手法は,統計の入門授業であまり教えられない。
そして,市販の統計ソフトには,検定力計算機能が付いていないものがある。
やっかいな数学を避けるには,想定している効果量を持つ人工的データセットを何千個もシミュレーションで作り、そうしてできたデータに対して統計的検定を行うというのも可能だ。
検定力は,統計的に有意だった結果を得たデータセットの割合で容易に求まる。
ただ,この方法はプログラミングの経験が必要となるし,真実味のあるデータをシミュレーションで作るのは難しい。
たとえそうであっても,科学者は検定力の問題に気づいて修正しようとするだろうと思われるかもしれない。
有意でない結果の研究が5つか6つ出てくれば,科学者は自分が何を間違えたのかについて,考えはじめるかもしれないというわけだ。
しかし,普通の研究では。仮説検定を1つだけでなく,たくさん行うので,何かしら有意なものをうまく引き出すことができるのだ。
この有意な結果が,論文の中で取りあげるのに十分なほどおもしろいものであるかぎり,科学者は自分の研究に検定力が足りないとは感じないのだ。
検定力が不十分だという問題は,科学者がグループ間に有意な結果を発見しなかったと述べるときにウソをついていることを示すわけではない。
だが,こうした結果をもって真の違いが存在しないことを意味すると決めてかかることは,誤解を招く。
違いは存在するかもしれない。
そして,重要な違いですら存在するかもしれない。
だが,それに気づくのが幸運であるぐらいに研究の規模が小さいのだ。
検定力の不足が研究において重大な問題であることは何十年も前から指摘されてきたが、この問題は依然として解決されず、現在でも広く蔓延している。1960年にジェイコブ・コーエンが「ジャーナル・オブ・アブノーマル・アンド・ソーシャル・サイコロジー」に発表した研究では、普通の研究の検定力が中程度の効果を検出する際にわずか0.48しかないことが明らかになった。この研究はその後、多くの研究者に引用され、検定力の不足が研究成果の妥当性に大きな影響を及ぼすことが広く認識されるようになった。コーエンの研究を皮切りに、同様の報告が数多く発表され、研究者たちは検定力の計算と標本サイズを大きくすることの重要性を強調し続けてきた。しかし、1989年の報告では、コーエンの発表以降の数十年間で、むしろ普通の研究の検定力が低下していることが示された。これにより、検定力不足の問題は単なる一過性の課題ではなく、長期にわたり構造的な問題として残っていることが明らかになった。この検定力の低下は、研究者が多重比較という別の課題に注意を向け、その対応として検定力を低下させるような手法を採用したことに起因している。多重比較は、複数の仮説を同時に検定する際に、偶然の一致で有意な結果が出やすくなることを防ぐための重要な調整手法であるが、その過程で検定力が犠牲になることが多い。このように検定力と多重比較補正の間には、不幸なトレードオフが存在し、研究者は結果の信頼性を維持しつつも、十分な検定力を確保するという難しい選択を迫られることになる。では、なぜ検定力の計算がしばしば忘れられ、研究の過程で無視されてしまうのだろうか。その一因として挙げられるのは、標本サイズに関する直感と実際の検定力の計算結果が一致しないことだ。研究者は「これだけの被験者がいれば十分だ」と直感的に感じてしまうことが多いが、実際には必要な標本サイズが過小評価されることが多い。たとえば、新しい心臓発作の治療手順を試験し、その方法によって死亡リスクが20%から10%に半減することを期待しているとしよう。この場合、研究者は「50人の患者にこの新手順を試し、もし明確な差が見られなかった場合には、この手法は有用ではない」と考えるかもしれない。しかし、実際に効果を検出するために必要な検定力を80%にするには、統制群と処置群それぞれに200人ずつ、合計で400人もの被験者が必要となるのだ。臨床医や研究者が直感的に十分と考える標本サイズは、実際には非常に小さく、検定力不足に陥る要因のひとつとなっている。もう一つの理由として、検定力を計算することが難しいことや、計算そのものが統計の入門コースで教えられないことが挙げられる。検定力の計算には複雑な数式や理論が必要であり、それを理解し実行するには高度な統計的知識が求められる。さらに、市販の統計ソフトには検定力を計算する機能が備わっていないこともある。これらの要因が組み合わさり、多くの研究者が検定力を考慮することなく研究を進める原因となっている。検定力を計算するための方法として、想定している効果量に基づいた人工的なデータセットを何千個もシミュレーションで作成し、それに基づいて統計的検定を行うという手段も存在する。この手法によって、統計的に有意な結果が得られたデータセットの割合から検定力を求めることができる。しかし、この方法にはプログラミングの経験が必要であり、真実味のあるデータをシミュレーションで作成すること自体も難しい作業であるため、多くの研究者にとってハードルが高い。たとえそうであっても、科学者は検定力の不足に気づき、それを修正しようとするはずだと考えられるかもしれない。しかし実際には、有意な結果が得られると、その研究が検定力不足であることに気づかれにくい傾向がある。研究者は、仮説検定を一度だけでなく何度も行い、何らかの有意な結果を得ることができる場合がある。そして、その結果が論文で取り上げるに値する面白いものであれば、研究者は自分の研究が検定力不足であるとは考えない。検定力が不足しているという事実は、研究者が意図的に真実を隠しているわけではないが、有意でない結果が出た研究を真の違いがないと結論付けることは誤解を招く可能性がある。実際には、見つからなかった違いは本当に存在しないわけではなく、単に研究の規模が小さすぎて発見されなかっただけかもしれない。特に、重要な違いが存在している可能性もあるが、それを発見するためには十分な検定力が必要である。研究が小規模であると、その違いに気づくことは困難であり、その結果、科学の進展が遅れる原因となる。検定力の不足が重大な影響をもたらすもう一つの理由は、統計的に有意な結果が論文に掲載される傾向が強いことである。学術誌はしばしば有意な結果を重視するため、研究者はそのような結果を得ることを目的として研究を設計することがある。しかし、このような研究デザインでは、結果が有意であってもそれが検定力不足による偶然の産物である可能性があるため、結果の解釈には注意が必要である。加えて、検定力不足の研究が公開されることは少なく、結果的に科学界全体が有意な結果に偏った情報で満たされることになる。このようなバイアスは、後のメタアナリシスや系統的レビューに影響を及ぼし、研究結果の正確性を損なう。科学者が検定力不足を是正するためには、研究の設計段階での計画が重要である。具体的には、効果サイズを見積もり、必要な標本サイズを計算することで、適切な検定力を確保することが求められる。さらに、検定力を適切に計算するためには、研究者が統計的な知識を深め、適切なツールを用いることも重要である。これにより、科学者は自身の研究が十分な検定力を持っているかどうかを判断し、結果の信頼性を高めることができる。検定力の問題は科学の発展にとって非常に重要であり、科学者や研究者がその重要性を理解し、研究のデザインに組み込むことで、より信頼性の高い研究結果を生み出すことが可能になる。
関連記事