有効性の基準【統計解析講義応用】

有効性の基準【統計解析講義応用】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

有効性の基準|【統計学・統計解析講義応用】

有効性の基準【統計解析講義応用】


目次  有効性の基準【統計解析講義応用】

 

 

有効性の基準

 

1970年代に実施されたいくつかの臨床試験は,有効性のモニタリングを何度か行いp値が一度でもαを下回ったら,評価している治療が有効であるという結論を下していた.

 

このようなアプローチがなぜ問題なのかを理解するには,例えば,ダーツ投げの選手が見事に的の真ん中にダーツを命中させたことを自慢している時に,実はそれが10回トライした後のたった1回だったと知ったとしたら彼の技量に関するあなたの評価がどう変わるかを考えてみてほしい.

 

ダーツが的の中心に命中しているということやあるいは結果が小さいp値に達しているということは,そのどちらの場合も試行を十分に繰り返すことが許されるならば,結局はその結果は常に偶然のみによって起こるものであろう.

 

格言「If you torture data long enough, they will eventually confess (十分長い間データをいじくりまくれば,自分の思う通りの結果が得られる)」があてはまる.

 

このことを他の言い方で表すと,複数回の検定をそれぞれαの有意水準を用いて行う時,第一種の過誤(type 1 error)の確率-治療が有益であると誤って宣言してしまう確率-は増大している,ということになる.

 

例えば,たった1回の中間時点での解析と最終解析を行った場合でも,全体で一度でも誤って有益性を判断してしまう確率は,有意水準0.05の検定を行ったとして5%ではなくおよそ8%である.

 

より多くの中間解析を行えば,誤ってしまう確率はさらに高くなる.

 

第一種の過誤の確率が増大するのを防ぐためには,全体の過誤の確率をαに抑えるよう,我々はそれぞれの解析時点においてより小さいp値を用いたより強いエビデンスを求めなければならない.

 

これがモニタリングのための基準値が意図するものである.

 

Haybittle-Peto法は,検定を数回行った中で少なくとも一度の過りを犯す確率は,それぞれの検定で誤る確率の合計を決して越えることはないこと(個々の誤りの確率を合計することは複数の誤りを複数回数えることになるので)を示した, Bonferroniの不等式に基づく方法である.

 

先の例で,2回の検定を有意水準0.05で行う場合の誤りの確率が0.05+0.05=0.10ではなく0.08であると記述したが,そこで我々はBonferroniの不等式が示すところのものに遭遇していることになる.

 

Haybittle-Peto法の少し修正された方法では,中間解析でのp値を0.001かそれより小さい値を有意であることを示すために用いて,最終的なp値のカットポイントを引き算によって調整する.

 

例えば,3回の中間解析を行うとすると,中間での誤りの確率は最大で0.001十0.001 + 0.001 = 0.003であるので,最終時点の解析では0.05 − 0.003 = 0.047という値を使用することができる.

 

一般的には,もし最終解析の前にX回の解析を行い,そしてそれらのどれもが早期終了のためのp<0.001という要求に届かなかった場合,最終解析ではp値が0.05- (ft-1)×0.001を下回った時にその治療の有益性はあるものと宣言される.

 

 

Haybittle-Peto法は,

 

(1)非常に早期で試験を終了するためにはかなりの強いエビデンスが必要とされる(試験の初期の段階では不確実性が高いのでこの性質は望ましい).

 

(2)最終解析の時点で要求されるエビデンスのレベルはモニタリングを行わない場合のそれに近い.

 

(3)モニタリングの間隔が等しくある必要はない,

 

(4)経時的な検定統計量の分布に関する仮定を必要とせず常に保守的である,という4つの望ましい性質を有している.

 

最も古くに開発された方法の1つであるにもかかわらず,今でもよく使われる手法であり,例えば,VV感染乳児に対する抗レトロウイルス療法による早期治療と遅延治療を比較した最近の試験5でも使用されている.

 

この方法における現実而での唯一の欠点は,要求されるエビデンスの強さに中間解析から最終解析にかけて急激な落ち込みがあることである.

 

そのことで,中間時点でそのエビデンスが不十分であると見なされたその後に,有効性の傾向が逆転し(すなわち,残りのデータではプラセボ群が治療群よりも良い結果となって),さらに試験の終わりには有効性評価の基準に達している,という論理的に矛盾するような結果が起こり得る.

 

前半と異なって後の方で有効性の傾向が逆転した場合に,そのエビデンスはどのように説得力を持ち得るだろうか.

 

Haybittle・Peto法の基準は,誤りの確率がαに等しいというより,むしろ常に小さいという点で過度に保守的であることにより,誤りの確率をさらなる仮定なしに制御できるようになっている,

 

第一種の過誤をαに等しくしてこれを改善するためには.経時的な検定統計量の分布に関する知識が必要とされるが,ある者は,その分布は使用する検定統計量によって異なるものと推測するかもしれない.

 

注目すべきことに,その分布は臨床試験で最もよく使われる標準的な検定統計量(必ずしもそれらに限定するものではないが)である連続値の比較のための1統計量,二値変数(binary outcome)の比率の比較に用いるz統計生存時間の解析に用いるlog-rank z-統計量,そしてそれらをベースライン共変量で調整するように修正した統計量においてほぼ同じである.

 

つまり,以下で議論するモニタリングの基準は(Haybittle-Petoの基準がどんな検定統計量についてもそうであるように)これらの広範囲にわたる検定統計量についても有効なものである.

 

 

有効性の基準【統計解析講義応用】


セミナー詳細                    解析ご相談                    LINEでお友達

有効性の基準【統計解析講義応用】

有効性の基準【統計解析講義応用】