p値の誤解:有意結果と偽陽性の真実【ChatGPT統計解析】
p値の解釈は難しく、有意でない結果は2つのグループに違いがないことを示すわけではない。有意な結果が得られても注意が必要だ。例えば、100種類のガン治療薬のうち実際に有効なものは10種類しかないとする。検定力0.8である場合、8種類は正しく検出されるが、p値0.05の閾値により無効な薬が効くと誤解される確率が5%であり、90種類中5種類が誤って有効と判定される。結果として「効く」とされた13種類のうち8種類が真に有効で、5種類が偽陽性であるため、本当に有効な薬の割合は62%で、偽発見率は38%となる。有効な治療薬の基準率が低いため、偽陽性が多くなる。基準率が0%では有意な結果の信憑性はなく、P<0.05の結果が出ても誤解を招く可能性がある。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
p値と基準率の誤り
p値は解釈しにくい。
統計的に有意でない結果が得られたとしても,2つのグループに違いがないことになるわけではないのだ。
では,有意な結果が得られた場合はどうだろうか。
ガンを治す見こみがある薬を100種類試験するとしよう。
これらの薬のうち,実際には10種類しか効かないのだが,どれが効くのかは分からない。
よって,効く薬を見つけるために実験をしなくてはならない。
実験においては,薬に有意な利益があることを示すために,偽薬に対してp<0.05となる薬を探すことになる。
実際には, 10種類の薬しか効かない。
ただし,ほとんどの試験では有効な薬をすべて発見できるわけではない。
このため,検定力が0.8であると仮定する(なお,ほとんどの研究はこれより検定力がずっと低い)。
よって,10種類の有効な薬のうち,およそ8種類の薬を正しく検出することになる。
p値の閾値が0.05になっているため,効果のない薬が効くという誤った結論に至る可能性が5%ある。
そして,試験した薬のうち90種類が効果がないのだから,そのうちおよそ5種類が有意な効果のある薬だという結論に至ることになるだろう。
実験をしたところ,「効く」薬が13種類あると結論するに至った。そのうち,8種類が真に有効な薬で,5種類が偽陽性となった薬だ。
つまり,「効く」薬が本当に有効である可能性は13個中8個だ。
なんと,たったの62%だ!
統計的に有意な結果が実は偽陽性である割合,つまり統計学の用語で言えば,偽発見率(false discovery rate) は38%だということになる。
有効なガン治療薬の基準率がたったの10%ととても低いために、偽陽性に遭遇する機会が多くなってしまっている。
極端な話、完全に効果がない薬がトラック1台分あるという不幸な状態におちいれば,基準率が0%なので,本当に有意な結果が得られる可能性はまったくない。
それにもかかわらず,卜ラックの中の薬のうち5%について、P<0.05という結果が得られてしまう。
p値の解釈は統計学において特に難しく、多くの研究者や分析者にとっても誤解を生むことがあります。まず、有意でない結果が得られた場合、これは単に統計的に有意とされる差が確認されなかったことを意味しますが、これによって「2つのグループに本当に違いがない」と結論づけることはできません。統計的に有意でない結果は、効果が小さすぎて検出できなかった可能性やサンプルサイズが不十分であった可能性も含んでいるため、あくまで慎重な解釈が必要です。では、有意な結果が得られた場合はどうでしょうか。統計的に有意な結果は、「ある効果が存在する可能性がある」という示唆を提供しますが、それが本当に有効な効果であるかどうかは別の問題です。たとえば、新しいガン治療薬の開発において、100種類の異なる薬を試験するケースを考えてみましょう。この100種類の薬のうち、実際に有効なのは10種類のみですが、どの薬がその10種類に該当するのかは事前には分かりません。したがって、研究者は試験を行い、有効な薬を特定する必要があります。試験において、研究者はp値が0.05未満の結果を得られた薬について、「統計的に有意な利益がある」とみなします。このような有意性の基準は広く用いられているものの、これには誤りが生じるリスクが伴います。具体的には、実際には効果がない薬でも、誤って有効と判断される可能性があるのです。この誤った結論に至る確率は5%であり、試験した薬のうち90種類が実際には効果がないとすれば、約5種類の薬が統計的に有意な効果を示したと誤認されることになります。一方で、実際に有効な薬の数は10種類です。検定力(statistical power)が0.8、つまり80%であると仮定した場合、そのうち8種類の薬は正しく有効と検出されますが、2種類は見逃されることになります。これにより、試験を通して「効く」と結論付けられた薬の総数は13種類となり、その内訳は真に有効な薬が8種類、偽陽性の薬が5種類です。この結果、「効く」とされた薬が実際に有効である確率、すなわち実際の発見率は62%に過ぎません。言い換えると、統計的に有意とされた結果の中に含まれる偽陽性の割合、つまり偽発見率(false discovery rate)は38%にも上ります。この偽発見率は、研究の精度や基準率(prior probability)がどれほど低いかによってさらに変化します。たとえば、有効なガン治療薬の基準率がたったの10%という非常に低い数値であった場合、試験の中で偽陽性に遭遇する確率は著しく高くなります。極端なケースを考えると、完全に効果のない薬だけが存在する状況、すなわち基準率が0%の場合には、実際に有意な結果が得られる可能性はまったくなくなります。しかし、それでもなお試験においては、有効性の誤検出が発生し得ます。具体的に言えば、トラック一台分の薬が効果がないものであったとしても、その中の5%はp値が0.05未満という結果が得られてしまう可能性があります。これにより、誤って「有効な薬」として報告されるケースが生じてしまいます。このような誤りを防ぐためには、p値そのものの役割と限界を十分に理解し、解釈を慎重に行うことが不可欠です。研究者は単にp値の閾値を満たす結果だけで結論を出すのではなく、全体の文脈や他の証拠を考慮に入れて判断する必要があります。p値は、その名の通り「有意性」を示す指標に過ぎず、「有効性」そのものを証明するものではないためです。また、p値の誤用や過信は誤解を生むだけでなく、科学研究の信頼性そのものに悪影響を及ぼす恐れがあります。実験の設計段階において、検定力や標本サイズを慎重に検討することも重要です。検定力が低いと、実際に有効な効果を見逃す確率が高くなり、研究の結果がバイアスを含むことになります。さらに、多重検定(multiple testing)の問題も考慮に入れる必要があります。複数の仮説を同時に検定する際、誤検出のリスクは累積的に高まるため、適切な補正を行わなければなりません。これにより、偽陽性の割合を抑え、研究の信頼性を高めることができます。最終的に、統計学の分析は単なる数値の評価にとどまらず、得られたデータを慎重に解釈し、その意味を理解することが求められます。データの背後にある科学的文脈や仮説を踏まえ、p値を含めたさまざまな統計的指標を総合的に検討することが、より正確な結論に導くための鍵となります。
関連記事