Pocock法とOBrien-Fleming法の違いと選択基準【ChatGPT統計解析】
Pocock(1977)のモニタリング法は等間隔で同じレベルのエビデンスを使用し、両側α=0.05の検定では、5回の解析の各時点でp値0.0158が要求される。しかし、最終解析でも厳格なエビデンスが求められるため、Haybittle-Peto法とは異なり、中間モニタリングに対するペナルティが大きい。これに対し、O’Brien-Fleming法は早期中止には強いエビデンスが必要だが、最終解析は通常のレベルに近い。両者は等間隔の解析が必要であり、柔軟性を重視するDSMBには不向きだ。LanとDeMets(1983)は、解析回数や時期の変更に適応する「情報分数」に基づく方法を提案し、情報分数により最新の累積過誤率を決定する。消費関数を用いるこの方法はO’Brien-Flemingに近い基準を生成し、安全性のモニタリングに適する場合がある。最適な消費関数の選択は統計家と相談が必要で、柔軟性が高いためCAST試験などで採用されている。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
有効性のモニタリング
Pocockの(1977)モニタリング法は,間隔を等しく設定したそれぞれの解析時点で(p値という意味において)同じレベルのエビデンスを使用する.
例えば,両側α= 0.05の検定で,5回の均等な問隔で計画された解析のいずれにおいても,結果が有意であると宣言するためのp値は0.0158であることが要求される.
厄介な点は,この方法は最後の解析においてもそのエビデンスに厳格なレベルを要求することである.
これは中間モニタリングを行うことに支払う大きなペナルティであり.同じ5回の解析の最後で0.05-4×(0.001)= 0.046を用いるHaybittle・Peto法と極めて対照的である.
Pocock法のこの短所については,後にPocock自身がこの手順に反する提唱をすることになるが,それでもPocockの基準は,安全性のモニタリングの目的に時々用いられることがある.
なぜなら,安全性にかかるシグナルはしばしば早期に見受けられることがあり,我々はその時に被害が生じる前に中止を判断できるようにするための境界値を極度に高く設定したいとは考えないからである.
有効性のモニタリングに関して. Pocock法よりもさらによく用いられるのがOBrienとFlemingの方法である.
Pocockの基準と同じように,この方法では解析時点の間隔を等しくする必要がある.
Pocock法と異なるのは,とても早い段階での中止については非常に強いエビデンスが必要だが,最終時点の解析で求められるエビデンスのレベルは中間モニタリングを行わない場合と近いものとなる点である.
HWの母子感染8の抑止について検討したACTG 076試験では, OBrien-Flemingの基準が用いられている.
PocockとOBrien-Flemingの基準では,何回の中間解析を実施するかを事前に決定する必要があり,そしてその解析の間隔は等しくなければならない.
DSMBはより柔軟性の高い方法を好む.
DSMB委員の予測不可能なスケジュールは,解析時点を等間隔に設定することへの妨げとなり,加えて委員会は試験が開始された後に解析の回数を変更したいと考えることがあるかもしれない.
LanとDeMets (1983)は,解析の回数と時期の変更に容易に適応する1つの方法を提案した.
それは情報分数(information fraction) という試験が完了している割合を表す尺度に基づいた方法で,ここでX=0は試験の開始を. t= 1は試験の終了時点を表す.
結果が連続値または二値変数で観測される試験では,fはそれまでに評価された患者の数の試験の終わりまでに評価される数に対する比率である.
もし全体で200例の患者を観察することを計画した試験で50例が中間解析時点で主要な結果の観測を受けている場合,その時のXはf= 50/200 = 0.25となる.
生存期間を評価する試験では,1はそれまでに評価された患者の数を,試験の終わりまでにイベントを発生する患者の数で除した値である.
つまり.終わりまでに100例の死亡を観察することを計画したある試験で40例の死亡があった時,1は* = 40/100 = 0.40である.
この方法では試験を開始する前に,いかなる時点で中間解析を行う時にも,単に最新の情報分数fを推定してコンピュータプログラムにより累積過誤率α*(X)を実現する基準を決定する.
基準値が持つ特性は,選択した消費関数に依存する.最もよく使われるのは試験の初期の段階では非常に小さいαを使い.試験の終わり近くで急速に残りを消費するものである.
中間解析の間隔を情報分数において等しくすれば,そのような消費関数はOBrien-Flemingの方法に非常に近い基準を生成する.
Pocockの方法と似た基準を生成する別の消費関数では,初期の段階でOBrien-Fleming型の関数よりも多くのαを消費する.
この関数は有効性のモニタリングに用いることを避けるべきであるが,安全性のモニタリングでの使用は適切である場合がある.
試験に最適な消費関数を選択するためには,分担研究者は統計家と話し合うことが大切である.
厳密に言えば,消費関数を用いるのアプローチは,中間解析の回数をデータの傾向に基づいて変更すること(例えば.ある結果が境界に近づいているのでさらに頻繁にモニタリングを行うなど)を許容するものではない.
それでも,他の著者らは,もしデータの傾向を見た後にモニタリングの回数を変更したとしても一般によく用いられる消費関数は良い特性を維持していることを示している.
その柔軟性の高さから,消費関数はCAST試験(Cardiac Arrhythmia Suppression Trial) を含む多くの重要な試験で使用されている.
Pocock(1977)のモニタリング法は、臨床試験や医薬品の有効性を評価する際の統計的手法として、間隔を等しく設定した複数の解析時点で一貫したエビデンスレベルを求める方法です。この手法では、両側α=0.05の検定において5回の均等な間隔で計画された解析のいずれにおいても、結果が有意と宣言されるためにはp値が0.0158以下であることが要求されます。これはつまり、各解析時点で一貫した厳格な基準を適用することを意味し、途中経過であっても最終的な結論と同等のエビデンスを求める点で非常に厳格な基準を持ちます。この厳しさは、一見して中間モニタリングを行う際の有効な手法に見えますが、特に最終解析においても同じエビデンスレベルを適用する点で、厳格さが過ぎるとの指摘もあります。なぜなら、最終的な解析結果と同じレベルのエビデンスを途中の段階でも求めることが、研究の進捗に対して過度な負担をかける可能性があるからです。これは中間モニタリングに対する大きなペナルティであると考えられており、Pocock法の弱点とされています。実際、同じ5回の解析を行う際に、例えばHaybittle-Peto法を採用する場合、最終解析時に必要なエビデンスレベルは0.05-4×0.001=0.046とされ、Pocock法と比べてやや緩やかです。こうした背景から、Pocock法の短所が指摘されることもありました。後にPocock自身もこの基準を見直し、異なる手法の提唱に至ったものの、それでもPocock法は現在も安全性のモニタリングの目的において使用される場合があり、その基準の厳しさが安全性の評価には有用であることが理由として挙げられます。特に、安全性に関するシグナルは早期に現れる場合が多く、発生時に速やかに中止判断ができるための基準を設定する必要があるため、境界値を極度に高く設定しないPocock法は一定の評価を得ています。一方、有効性のモニタリングについてはPocock法に代わってO’BrienとFlemingの手法が広く用いられています。この方法では、解析の間隔をPocock法と同様に等しく保つ必要があるものの、初期段階の中止には非常に強いエビデンスが要求される一方で、最終解析時点では中間モニタリングを行わない場合とほぼ同等のエビデンスレベルに収束する点が特徴です。このアプローチは、特に長期にわたる臨床試験において、早期段階で有意な差が見られた場合の中止を支持しやすい一方で、最終段階での検証結果に信頼性を持たせるため、最終解析時点の基準を従来の検定と同水準に近づけることを目的としています。例えば、HIV母子感染を抑止するために実施されたACTG 076試験ではO’Brien-Fleming基準が採用され、効果の早期発現と試験の進行を両立させるための基準として適用されました。これにより、HIV母子感染抑止という重要な医療課題に対して、早期のデータで強力なエビデンスが得られた場合には中止が容易となる一方、後期のデータにも信頼性が持たれることが保証されます。PocockおよびO’Brien-Flemingの基準には共通点があり、それは中間解析の回数と解析時点の間隔を試験開始前に決定する必要があることです。しかし、Data and Safety Monitoring Board(DSMB)は、より柔軟なモニタリング手法を好む傾向にあります。なぜなら、DSMB委員は予測不可能なスケジュールでモニタリングを行う場合が多く、あらかじめ設定された等間隔の解析を遵守することが難しい場合があるためです。さらに、試験開始後の進行状況によっては解析の回数を増減させたいという要望も出てくることがあります。こうしたニーズに応えるため、LanとDeMets(1983)は、解析の回数や時期の変更に柔軟に対応できる「情報分数」に基づく新しい手法を提案しました。情報分数とは、試験全体の進行度合いを表す尺度であり、例えばX=0は試験開始、X=1は試験終了を意味します。この手法は、試験の進行に応じた中間解析が可能であり、情報分数fにより解析時点で最新の累積過誤率α*(X)を調整することが可能となります。試験の進行に応じて情報分数fを更新することで、例えば、観察対象が増えるごとに試験終了までの進捗状況を定量的に示すことができ、中間解析を柔軟に行う際の基準として活用されています。情報分数に基づいたこの手法では、試験がどのように進行しているかに基づいて累積過誤率が調整されるため、試験の進捗に応じた基準値の決定が可能です。また、選択された消費関数により、基準値の特徴は大きく影響されます。一般的には、試験の初期段階では非常に小さいαを使用し、試験終了間際で急速に残りを消費するような消費関数が好まれ、これによりO’Brien-Flemingの基準に近い解析が行われる場合があります。逆に、Pocock法に近い基準を生成する消費関数もあり、これは初期段階でより多くのαを消費します。このような消費関数は、有効性のモニタリングには不適切であるとされますが、安全性のモニタリングにおいては適用される場合があります。最適な消費関数を選択するためには、試験に関与する分担研究者と統計家との十分な協議が不可欠です。消費関数を用いたアプローチは中間解析の回数をデータの傾向に基づいて変更することを厳密には許容しませんが、他の著者らは、データの傾向を見てモニタリング回数を変更しても、一般に消費関数は良好な特性を維持することを示しています。このため、消費関数の柔軟性が重要視され、多くの大規模な臨床試験においても採用されています。実際、CAST試験(Cardiac Arrhythmia Suppression Trial)など多くの重要な試験で消費関数が使用され、その柔軟性と効率性が認められています。
関連記事