停止規則と偽陽性率【統計解析講義応用】

停止規則と偽陽性率【統計解析講義応用】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

停止規則と偽陽性率|【統計学・統計解析講義応用】

停止規則と偽陽性率【統計解析講義応用】


目次  停止規則と偽陽性率【統計解析講義応用】

 

 

停止規則と偽陽性率

 

医学的試験には多額の費用が必要となる。多数の患者に対して,実験的な薬物治療を実施し,何か月もの間,症状を追うことは,相当の量の資源を消費することになる。

 

このため,多くの製薬会社が停止規則(stopping rule)を発達させてきた。

 

これは実験的な薬が実質的な効果を持つと明らかになった場合,調査者が研究を早めに終えることを許すものだ。

 

例えば,試験は半分しか終わっていないものの,新しい薬に関して,症状に統計的有意差がすでに存在しているならば,研究者は結論をさらに強固にするためにより多くのデータを集めるのではなく,研究を終わらせてもよい。

 

実際,効果があることをすでに知っている薬物治療を統制群に対して行わないことは,非倫理的だとされる。

 

しかし,下手に行われれば,早期にデータに手をつけることが,偽陽性をもたらしてしまう可能性がある。

 

2つのグループの患者を比較するとしよう。

 

一方のグループはフィクシトルという新しい実験的な薬を服用し,もう一方は偽薬を服用するものとする。

 

フィクシトルが効いているかを調べるために,血流中のあるタンパク質の水準を測定する。

 

ここで,フィクシトルが変化をもたらすことはまったくなく,2つのグループでタンパク質の水準の平均が同じだとしよう。

 

ただし,たとえそうだとしても,大によってタンパク質の水準は少しずつ異なることになるだろう。

 

それぞれのグループで100人の患者を用いるという計画を立ててはいるか,最初は10人ずつで開始し,2人ずつ追加で集め,1人を処置群に,1人を統制群に加えていく。

 

進めるたびに,2つのグループを比較する有意性検定を行い,タンパク質の水準の平均の間に統計的有意性があるかを見る。

 

有意性があることを見いだしたら,早めに試験を停止することになる。

 

データを集めていくにつれて,グループ間の差異に関するp値が変化し、やがてp = 0.05の有意水準に達する。

 

最初は,有意差がないように見える。

 

だが,データを集めていくと,p値は有意水準を下回る。

 

早めに停止していれば,誤ってグループ間に有意差があると結論づけただろう。

 

さらにデータを集めて,はじめて違いが有意でないことに気づくのだ。

 

グループ間で本当の違いがないのだから,p値が有意水準を下回るわけがないと思うかもしれない。

 

つまり,データをさらに集めることで,結論がさらに悪いものになるわけがないだろうというわけだ。

 

試験を再び実施した場合,最初からグループ間に有意差がなく,さらにデータを集めてもそのまま有意差がないままでいることはありえる。

 

また,巨大な差が存在する状態で始まり,すぐに差がない状態に帰着することもありえる。

 

しかし,もし十分長く待ちつつ,データ点が1つ加わるごとに検定すれば,任意の値の統計的有意水準を下回ることが出てきてしまうだろう。

 

通常,無限の標本を集めることはできないので,現実にはこうしたことが常に起きるわけではないが,そうだとしても,うまく実施されない停止規則は偽陽性率を大きく上昇させるのだ。

 

ここで,実験を実施する意図が重要になる。

 

グループの大きさとして一定の数をあらかじめ決めておけば,p値はその特定の大きさのグループにおいてより極端な結果を得る確率になるだろう。

 

 

しかし,結果によってグループの大きさを変えることを許しているので,このことを説明に入れてp値を計算しなくてはならない。

 

逐次分析(sequential analysis)の分野全体が,多重検定を説明するためにより厳しいp値の閾値を選ぶか,他の統計的検定を使うかによって,この問題を解決する方法を発展させてきた。

 

早めに停止する規則がある試験は,偽陽性だけでなく,事実の誇張によってゆがめられる傾向がある。

 

多くの試験が,薬が優れていたからではなく,幸運な患者がいた結果として早めに停止されている。

 

試験を停止することで,差を知るために必要な追加データを得る機会が,研究者から奪われている。

 

実際,停止された医学的試験では,早めに停止されなかった類似の研究に比べて,平均して29%効果を誇張している。

 

もちろん,研究されているどんな薬についても,本当のところは分からない。

 

それが分かっていたら,そもそも研究をしないのだから。

 

このため,ある研究が早めに停止されたのが,運のせいなのか,本当に薬が良かったのかを見分けることはできない。

 

しかし,多くの停止された研究では,あらかじめ想定した標本の大きさや研究終了を容認する停止規則について公開することすらしない。

 

試験を早めに停止することは,偏った結果だと自動的に決めつける証拠にはならないが,そういうことを示唆するものではある。

 

現代の臨床試験では,統計に関するプロトコルをあらかじめ登録することがしばしば要求される。

 

そして,一般的には,1つの観察が終わるたびに検定するのではなく,証拠を検定するための少数の評価点を先に選んでおく。

 

こうした登録された研究(registered study)は,偽陽性率を少ししか引き上げない。

 

しかもここでの偽陽性率は,必要な有意水準と他の逐次分析の手法を慎重に選ぶことで説明できる。

 

しかし,他のほとんどの分野ではプロトコルの登録をすることがなく,研究者は自らが適切だと思う手法を何でも自由に使える。

 

例えば,心理学者に対して調査をしたところ,半数以上が結果が有意かどうかを確かめた後にさらにデータを集めるかを決めたことがあると認めている。

 

そして,こうしたことは公刊の際には通常隠される。

 

さらに,研究者がこうした疑問の余地がある研究上の実践を認めたがらないことを考えると,実際にそうしている研究者の比率はもっと高い可能性がある。

 

自分のデータに基づいて分析手続きを決める場合は,分析そのものに使うデータとは別のものを使うようにしよう。

 

有意性検定を使ってデータの標本から最も幸運(あるいは最も不運)な人々を抽出した場合,将来の観察で幸運が続かないことに驚かないようにしよう。

 

停止規則をあらかじめ慎重に計画し,多重比較のための調整をするようにしよう。

 

 

停止規則と偽陽性率【統計解析講義応用】


セミナー詳細                    解析ご相談                    LINEでお友達

停止規則と偽陽性率【統計解析講義応用】

停止規則と偽陽性率【統計解析講義応用】