医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】

医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】

医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】
医学的試験には多大なコストがかかり、製薬会社は実験的薬物の効果が明らかになった場合、早期に試験を終了できる停止規則を導入している。しかし、この規則は誤って有意差を見出す偽陽性リスクを伴う。例えば、治療群と統制群を比較し、進行中に得たデータで有意性を確認し停止すると、実際には誤った結論に至る可能性がある。データ収集の進行に伴いp値が有意水準を下回ることがあるが、追加データで有意差が消える場合もある。適切な停止規則の計画や調整を怠ると、結果が誇張されることがあり、29%の効果の過大評価が報告されている。プロトコルの事前登録は偽陽性率の上昇を抑えるが、心理学分野などではこの登録が少なく、自由な手法が用いられることが多い。調査によれば半数以上の心理学者が結果に基づきデータ収集を追加した経験があると述べ、公刊時にこうした実践は隠されることも多い。したがって、分析手続きの選定は慎重に計画され、停止規則を適切に用いることが重要である。

医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】

 

 

停止規則と偽陽性率

 

医学的試験には多額の費用が必要となる。多数の患者に対して,実験的な薬物治療を実施し,何か月もの間,症状を追うことは,相当の量の資源を消費することになる。

 

このため,多くの製薬会社が停止規則(stopping rule)を発達させてきた。

 

これは実験的な薬が実質的な効果を持つと明らかになった場合,調査者が研究を早めに終えることを許すものだ。

 

例えば,試験は半分しか終わっていないものの,新しい薬に関して,症状に統計的有意差がすでに存在しているならば,研究者は結論をさらに強固にするためにより多くのデータを集めるのではなく,研究を終わらせてもよい。

 

実際,効果があることをすでに知っている薬物治療を統制群に対して行わないことは,非倫理的だとされる。

 

しかし,下手に行われれば,早期にデータに手をつけることが,偽陽性をもたらしてしまう可能性がある。

 

2つのグループの患者を比較するとしよう。

 

一方のグループはフィクシトルという新しい実験的な薬を服用し,もう一方は偽薬を服用するものとする。

 

フィクシトルが効いているかを調べるために,血流中のあるタンパク質の水準を測定する。

 

ここで,フィクシトルが変化をもたらすことはまったくなく,2つのグループでタンパク質の水準の平均が同じだとしよう。

 

ただし,たとえそうだとしても,大によってタンパク質の水準は少しずつ異なることになるだろう。

 

それぞれのグループで100人の患者を用いるという計画を立ててはいるか,最初は10人ずつで開始し,2人ずつ追加で集め,1人を処置群に,1人を統制群に加えていく。

 

進めるたびに,2つのグループを比較する有意性検定を行い,タンパク質の水準の平均の間に統計的有意性があるかを見る。

 

有意性があることを見いだしたら,早めに試験を停止することになる。

 

データを集めていくにつれて,グループ間の差異に関するp値が変化し、やがてp = 0.05の有意水準に達する。

 

最初は,有意差がないように見える。

 

だが,データを集めていくと,p値は有意水準を下回る。

 

早めに停止していれば,誤ってグループ間に有意差があると結論づけただろう。

 

さらにデータを集めて,はじめて違いが有意でないことに気づくのだ。

 

グループ間で本当の違いがないのだから,p値が有意水準を下回るわけがないと思うかもしれない。

 

つまり,データをさらに集めることで,結論がさらに悪いものになるわけがないだろうというわけだ。

 

試験を再び実施した場合,最初からグループ間に有意差がなく,さらにデータを集めてもそのまま有意差がないままでいることはありえる。

 

また,巨大な差が存在する状態で始まり,すぐに差がない状態に帰着することもありえる。

 

しかし,もし十分長く待ちつつ,データ点が1つ加わるごとに検定すれば,任意の値の統計的有意水準を下回ることが出てきてしまうだろう。

 

通常,無限の標本を集めることはできないので,現実にはこうしたことが常に起きるわけではないが,そうだとしても,うまく実施されない停止規則は偽陽性率を大きく上昇させるのだ。

 

ここで,実験を実施する意図が重要になる。

 

グループの大きさとして一定の数をあらかじめ決めておけば,p値はその特定の大きさのグループにおいてより極端な結果を得る確率になるだろう。

 

 

しかし,結果によってグループの大きさを変えることを許しているので,このことを説明に入れてp値を計算しなくてはならない。

 

逐次分析(sequential analysis)の分野全体が,多重検定を説明するためにより厳しいp値の閾値を選ぶか,他の統計的検定を使うかによって,この問題を解決する方法を発展させてきた。

 

早めに停止する規則がある試験は,偽陽性だけでなく,事実の誇張によってゆがめられる傾向がある。

 

多くの試験が,薬が優れていたからではなく,幸運な患者がいた結果として早めに停止されている。

 

試験を停止することで,差を知るために必要な追加データを得る機会が,研究者から奪われている。

 

実際,停止された医学的試験では,早めに停止されなかった類似の研究に比べて,平均して29%効果を誇張している。

 

もちろん,研究されているどんな薬についても,本当のところは分からない。

 

それが分かっていたら,そもそも研究をしないのだから。

 

このため,ある研究が早めに停止されたのが,運のせいなのか,本当に薬が良かったのかを見分けることはできない。

 

しかし,多くの停止された研究では,あらかじめ想定した標本の大きさや研究終了を容認する停止規則について公開することすらしない。

 

試験を早めに停止することは,偏った結果だと自動的に決めつける証拠にはならないが,そういうことを示唆するものではある。

 

現代の臨床試験では,統計に関するプロトコルをあらかじめ登録することがしばしば要求される。

 

そして,一般的には,1つの観察が終わるたびに検定するのではなく,証拠を検定するための少数の評価点を先に選んでおく。

 

こうした登録された研究(registered study)は,偽陽性率を少ししか引き上げない。

 

しかもここでの偽陽性率は,必要な有意水準と他の逐次分析の手法を慎重に選ぶことで説明できる。

 

しかし,他のほとんどの分野ではプロトコルの登録をすることがなく,研究者は自らが適切だと思う手法を何でも自由に使える。

 

例えば,心理学者に対して調査をしたところ,半数以上が結果が有意かどうかを確かめた後にさらにデータを集めるかを決めたことがあると認めている。

 

そして,こうしたことは公刊の際には通常隠される。

 

さらに,研究者がこうした疑問の余地がある研究上の実践を認めたがらないことを考えると,実際にそうしている研究者の比率はもっと高い可能性がある。

 

自分のデータに基づいて分析手続きを決める場合は,分析そのものに使うデータとは別のものを使うようにしよう。

 

有意性検定を使ってデータの標本から最も幸運(あるいは最も不運)な人々を抽出した場合,将来の観察で幸運が続かないことに驚かないようにしよう。

 

停止規則をあらかじめ慎重に計画し,多重比較のための調整をするようにしよう。

 

 

医学的試験には多額の費用が必要となる。多数の患者に対して実験的な薬物治療を実施し、長期間にわたり症状を追跡調査することは、莫大な資源を消費する。こうした事情から、多くの製薬会社は停止規則を発達させてきた。これは、実験的な薬が実質的な効果を持つと早期に判断できた場合に、研究者が試験を早めに終了することを可能にするものである。例えば、試験がまだ途中段階であっても、新しい薬に関して既に統計的に有意な差が認められる場合、さらなるデータ収集を行って結論を強化する代わりに、試験を終了することが許される。これは倫理的な観点からも正当化される場合がある。なぜなら、効果があるとわかっている薬物治療を統制群に適用しないことは非倫理的とみなされることがあるからだ。しかし、このような早期に試験を終了するという行為は、適切に行われない場合、偽陽性のリスクを高める可能性がある。具体例を挙げると、2つのグループの患者を比較する実験を想定する。一方のグループには「フィクシトル」と呼ばれる新しい実験的薬を投与し、もう一方のグループには偽薬を投与する。フィクシトルの効果を確認するためには、血流中の特定のタンパク質の水準を測定する。仮に、フィクシトルが実際には何の変化ももたらさず、両グループ間でタンパク質の水準の平均が同じであると仮定しよう。しかし、現実には個人差により各グループ内のタンパク質水準はわずかに異なる可能性がある。実験計画として、各グループに100人の患者を用いる予定があるとしても、試験はまず10人ずつから始め、少しずつ2人ずつ追加して、1人を処置群に、1人を統制群に加えることにする。このように進めながら、有意性検定を行い、各ステップで2つのグループ間に統計的有意な差が存在するかを確認することができる。仮に有意差が確認された場合、試験を早期に終了することがある。この手法は一見合理的に思えるが、早期にデータを分析することは、偽陽性のリスクを高める可能性を伴う。つまり、データを集め続けることでp値は変化し、ついには有意水準p = 0.05を下回ることもある。最初は統計的有意差がないように見えるかもしれないが、追加のデータによってp値が有意水準を下回り、有意差があるように見える場合がある。しかし、その後さらにデータを収集した結果、最終的に有意差が消失することもある。実際には、グループ間に本当の違いがない場合でも、p値が有意水準を下回ることがあるという事実に驚くことはないだろう。データ収集を進めることで結果が悪化することはないと考えられがちだが、試験を繰り返す場合、最初に有意差がないとされていたグループ間の差異が、データの追加収集によって消失することがある。また、初期段階で非常に大きな差異が見られた後、その後のデータ収集によってその差異が縮小し、最終的には有意差が消失することもある。さらに、データが集められるごとに検定が行われると、任意のタイミングでp値が統計的有意水準を下回ることが出てきてしまうだろう。無限の標本を集めることは現実的には不可能だが、十分な標本サイズが確保されないまま停止規則が導入されると、偽陽性のリスクは大きく高まる。したがって、実験の目的と方法論を明確にし、実験計画においてグループの大きさをあらかじめ固定しておくことが重要である。このようにすると、p値はその特定の大きさのグループに対する有意性を検証するものであると解釈できる。しかし、結果に応じてグループのサイズを変更することが許される場合、その影響を考慮に入れてp値を再計算する必要がある。逐次分析と呼ばれる分野では、このような多重検定の問題を説明するために、厳しいp値の閾値を選んだり、異なる統計的検定手法を使用したりするなどの手法が発展してきた。停止規則を導入した試験は、偽陽性率が高まるだけでなく、観察された事実が誇張される傾向もある。実際、多くの試験が薬の優位性によるものではなく、偶然にも有利な患者が試験に含まれていたために早期終了されることがある。試験を早期に終了すると、統計的有意性を持つ結論を導くために必要な追加データを得る機会が失われる。報告によれば、早期に終了された試験は、継続的に進められた類似の試験に比べ、平均して29%も効果が誇張されている。もちろん、ある薬の効果が本当に有効かどうかは試験終了時点では不明であるため、試験そのものを行う必要が生じる。つまり、ある試験が早期終了された理由が偶然の結果によるものか、薬そのものが優れていたからなのかを見分けることは困難である。加えて、実際に停止された多くの試験では、標本サイズや試験終了を許可する停止規則が事前に公開されないことが多い。試験を早期に停止したという事実だけで偏った結果と判断することはできないが、その可能性を示唆する指標であるとされている。現代の臨床試験においては、統計的手法を事前に登録することが求められることが多く、検定の際には証拠を評価する少数の時点を事前に設定する。このような登録された研究では、偽陽性率はわずかに増加するにとどまるが、必要な有意水準や他の逐次分析手法を慎重に選ぶことでそのリスクを最小限に抑えることができる。しかし、心理学などの他の多くの分野ではプロトコル登録が行われることは少なく、研究者は自由に手法を選ぶことができる。ある調査では、心理学者の半数以上が、結果が有意であるかどうかを確認した後でさらにデータ収集を続行するかどうかを決めた経験があると答えている。これらの実践は論文が公刊される際には通常隠されることが多い。研究者がこうした研究上の疑わしい実践を認めたがらないことを考慮すると、実際にそのようなことを行っている割合はさらに高い可能性がある。試験中にデータを分析し、その結果に基づいて分析手続きを決める場合は、その分析に用いるデータと異なるデータセットを使用することが推奨される。さらに、有意性検定により特に幸運な標本(または不運な標本)が抽出されてしまうことを避けるため、将来の観察結果が異なる場合に驚かないよう心構えが必要である。停止規則を慎重に計画し、多重比較のための適切な調整を行うことが不可欠である。特に医学的試験においては、倫理的側面も重要である。

 

医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】

医学試験の偽陽性リスクと停止規則の真実【ChatGPT統計解析】