臨床試験のp値と誤り制御:Haybittle-Peto法の有効性【ChatGPT統計解析】
1970年代の臨床試験では、p値がαを下回ると治療が有効と判断されていましたが、このアプローチは問題があります。例えるなら、ダーツで10回中1回だけ的中させた選手を高評価するようなもので、繰り返せば偶然の要素が結果に影響する可能性が高まるためです。このため、複数回の検定で第一種過誤が増加しないよう、モニタリング基準が設定され、各時点でより小さなp値が求められます。Haybittle-Peto法はBonferroniの不等式に基づき、誤り確率を合計しない方法で、強いエビデンスが求められる一方、最終解析でのエビデンス水準は通常の基準に近く、試験中の分布仮定が不要という特徴があります。最古の方法ですが現在も用いられ、実際には中間解析と最終解析間のエビデンス水準の急な差異が欠点とされますが、誤り確率を制御できる優れた方法です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
有効性の基準
1970年代に実施されたいくつかの臨床試験は,有効性のモニタリングを何度か行いp値が一度でもαを下回ったら,評価している治療が有効であるという結論を下していた.
このようなアプローチがなぜ問題なのかを理解するには,例えば,ダーツ投げの選手が見事に的の真ん中にダーツを命中させたことを自慢している時に,実はそれが10回トライした後のたった1回だったと知ったとしたら彼の技量に関するあなたの評価がどう変わるかを考えてみてほしい.
ダーツが的の中心に命中しているということやあるいは結果が小さいp値に達しているということは,そのどちらの場合も試行を十分に繰り返すことが許されるならば,結局はその結果は常に偶然のみによって起こるものであろう.
格言「If you torture data long enough, they will eventually confess (十分長い間データをいじくりまくれば,自分の思う通りの結果が得られる)」があてはまる.
このことを他の言い方で表すと,複数回の検定をそれぞれαの有意水準を用いて行う時,第一種の過誤(type 1 error)の確率-治療が有益であると誤って宣言してしまう確率-は増大している,ということになる.
例えば,たった1回の中間時点での解析と最終解析を行った場合でも,全体で一度でも誤って有益性を判断してしまう確率は,有意水準0.05の検定を行ったとして5%ではなくおよそ8%である.
より多くの中間解析を行えば,誤ってしまう確率はさらに高くなる.
第一種の過誤の確率が増大するのを防ぐためには,全体の過誤の確率をαに抑えるよう,我々はそれぞれの解析時点においてより小さいp値を用いたより強いエビデンスを求めなければならない.
これがモニタリングのための基準値が意図するものである.
Haybittle-Peto法は,検定を数回行った中で少なくとも一度の過りを犯す確率は,それぞれの検定で誤る確率の合計を決して越えることはないこと(個々の誤りの確率を合計することは複数の誤りを複数回数えることになるので)を示した, Bonferroniの不等式に基づく方法である.
先の例で,2回の検定を有意水準0.05で行う場合の誤りの確率が0.05+0.05=0.10ではなく0.08であると記述したが,そこで我々はBonferroniの不等式が示すところのものに遭遇していることになる.
Haybittle-Peto法の少し修正された方法では,中間解析でのp値を0.001かそれより小さい値を有意であることを示すために用いて,最終的なp値のカットポイントを引き算によって調整する.
例えば,3回の中間解析を行うとすると,中間での誤りの確率は最大で0.001十0.001 + 0.001 = 0.003であるので,最終時点の解析では0.05 − 0.003 = 0.047という値を使用することができる.
一般的には,もし最終解析の前にX回の解析を行い,そしてそれらのどれもが早期終了のためのp<0.001という要求に届かなかった場合,最終解析ではp値が0.05- (ft-1)×0.001を下回った時にその治療の有益性はあるものと宣言される.
Haybittle-Peto法は,
(1)非常に早期で試験を終了するためにはかなりの強いエビデンスが必要とされる(試験の初期の段階では不確実性が高いのでこの性質は望ましい).
(2)最終解析の時点で要求されるエビデンスのレベルはモニタリングを行わない場合のそれに近い.
(3)モニタリングの間隔が等しくある必要はない,
(4)経時的な検定統計量の分布に関する仮定を必要とせず常に保守的である,という4つの望ましい性質を有している.
最も古くに開発された方法の1つであるにもかかわらず,今でもよく使われる手法であり,例えば,VV感染乳児に対する抗レトロウイルス療法による早期治療と遅延治療を比較した最近の試験5でも使用されている.
この方法における現実而での唯一の欠点は,要求されるエビデンスの強さに中間解析から最終解析にかけて急激な落ち込みがあることである.
そのことで,中間時点でそのエビデンスが不十分であると見なされたその後に,有効性の傾向が逆転し(すなわち,残りのデータではプラセボ群が治療群よりも良い結果となって),さらに試験の終わりには有効性評価の基準に達している,という論理的に矛盾するような結果が起こり得る.
前半と異なって後の方で有効性の傾向が逆転した場合に,そのエビデンスはどのように説得力を持ち得るだろうか.
Haybittle・Peto法の基準は,誤りの確率がαに等しいというより,むしろ常に小さいという点で過度に保守的であることにより,誤りの確率をさらなる仮定なしに制御できるようになっている,
第一種の過誤をαに等しくしてこれを改善するためには.経時的な検定統計量の分布に関する知識が必要とされるが,ある者は,その分布は使用する検定統計量によって異なるものと推測するかもしれない.
注目すべきことに,その分布は臨床試験で最もよく使われる標準的な検定統計量(必ずしもそれらに限定するものではないが)である連続値の比較のための1統計量,二値変数(binary outcome)の比率の比較に用いるz統計生存時間の解析に用いるlog-rank z-統計量,そしてそれらをベースライン共変量で調整するように修正した統計量においてほぼ同じである.
つまり,以下で議論するモニタリングの基準は(Haybittle-Petoの基準がどんな検定統計量についてもそうであるように)これらの広範囲にわたる検定統計量についても有効なものである.
1970年代における臨床試験では、治療の有効性評価が現在と比べて簡素に行われ、p値が有意水準(α値)を下回った場合には、その治療が「有効である」と結論づけられることが一般的でした。しかし、このアプローチには大きな問題が潜んでいました。例えば、ダーツの例を挙げると、選手が10回中1回だけ的の中心に当てたとしても、その1回だけを見て技量が高いと評価するのは誤りです。実際には、試行回数が増えるほど偶然による偏りが生じる可能性が高まり、真に実力を反映しているとは限りません。同様に、臨床試験においても、偶然の誤差によって小さいp値が得られることがあり、その結果をもって治療が有効だと判断するのは非常に危険です。このような問題を防ぐために、治療効果の評価には一貫した厳密な基準が必要であり、これが複数回の解析やモニタリングにおいても第一種過誤(type 1 error)が増加しないようにするための方法論の必要性を浮き彫りにしています。この第一種過誤とは、無効な治療が有効だと誤って判断してしまう確率を指し、通常はαの値として0.05が設定されますが、繰り返しの解析により確率が積み重なり、この値が増加するリスクが生じます。これを抑えるため、複数の時点で有効性の確認を行う際には、各解析時点で通常よりも小さなp値を用いる必要があります。この考えに基づいて開発された方法の一つがHaybittle-Peto法であり、Bonferroniの不等式に基づいた統計手法です。Bonferroniの不等式は、複数の検定を行う際に誤り確率が積み上がってしまうことを防ぐために、各検定に厳しい基準を設けることで全体の誤り確率を抑制するものです。Haybittle-Peto法は、このBonferroniの不等式を応用することで、複数回の検定が行われても第一種過誤の合計確率が過度に高まらないよう設計されており、強いエビデンスが求められる仕組みとなっています。具体的には、p値が0.001以下である場合にのみ中間解析で治療効果が有意と判断され、最終解析での有意水準は通常の0.05の水準に近い値を使用することができます。これにより、各解析の時点での誤り確率を制御しつつ、最終解析における治療の有効性の評価基準が厳密に保たれます。こうした特徴は、特に臨床試験の初期段階において誤りを犯すリスクが高い場合や、繰り返しの検定を行う試験において非常に有用です。また、Haybittle-Peto法は解析の間隔が等しくある必要がないため、臨床試験のデザインの自由度が高く、実施可能なタイミングで中間解析が行える利点も持っています。この手法はまた、経時的な検定統計量の分布に依存しないため、試験が進むにつれて対象数が増えたり、サンプル数が偏る場合にも、保守的かつ頑健な手法として広く適用可能です。Haybittle-Peto法は最古の有効性モニタリング手法の一つとして知られており、現在でもさまざまな臨床試験で用いられています。例えば、HIV感染乳児に対する抗レトロウイルス療法による早期治療と遅延治療の比較試験においても、この方法が採用されており、長期間にわたる試験において誤りのリスクを抑えつつ有効なデータを収集できる方法として評価されています。しかし、Haybittle-Peto法には一部で批判もあります。具体的には、中間解析と最終解析の間にエビデンス基準の急激な差異が生じるため、中間時点では有効性を示さなかった治療が、試験の後半で効果が逆転する現象が発生することがあります。このような場合、治療効果が途中で逆転し、残りのデータではプラセボ群が治療群を上回る結果が出ることで、最終的には有効と判断される可能性があり、結果の整合性に疑問が生じることがあります。これは、試験の進行に伴って治療の有効性が一定の傾向を示す場合には問題となりにくいですが、サンプルサイズや治療群の特性が試験の進行によって大きく変わるような場合には、解析の精度に影響を与えることがあります。それでも、Haybittle-Peto法は臨床試験の信頼性を高めるための強力な手段であり、特に第一種過誤を抑えることに特化した保守的な方法論です。第一種過誤をより厳密にαに等しくするためには、経時的な検定統計量の分布に関する知識が必要であり、その分布は検定統計量の種類により異なると考えられます。興味深いことに、臨床試験でよく使われる標準的な検定統計量、すなわち、連続値の比較に用いるt統計量や、二値変数の比率比較に用いるz統計量、生存時間解析で用いるlog-rank z統計量、さらにベースライン共変量で調整した統計量では、分布に大きな違いが見られません。このため、Haybittle-Peto法はこうした広範な統計量においても有効であるとされています。分布が統一されていることにより、試験の設計者は各解析時点で同じ基準を適用でき、解析間隔の調整や検定統計量の選択において柔軟な対応が可能となります。モニタリングの基準に関する議論はこのHaybittle-Peto法にとどまらず、さまざまな方法が提案されていますが、いずれも複数回の解析における誤りの確率を制御する点において共通しています。これは臨床試験が患者にとっても社会にとっても重要な意義を持つからであり、誤った結論が導かれることによって本来受けられるべき治療が制限されたり、不必要な治療が行われたりするリスクを避けるための仕組みです。臨床試験における有効性モニタリングは、今後も医療技術や統計手法の進歩に伴い進化するでしょうが、Haybittle-Peto法が示した保守的なアプローチは、現代の臨床試験の基礎となっていることは確かです。医療や薬学の進展とともに、将来的にはより適応的かつ効率的なモニタリング手法が登場することが期待されますが、第一種過誤を最小限に抑えることの重要性は変わらず、Haybittle-Peto法が長きにわたって信頼され続けているのもその一因といえるでしょう。
関連記事