無益性判定で試験継続の意義を問う!【ChatGPT統計解析】
無益性とは、治療が有益である可能性が低いために試験を継続する意義がないことを指し、その要因としてサンプルサイズや検出力の誤った設定、イベント率の低さ、分散の過大さ、被験者登録の遅れなどが考えられる。これにより、当初の課題に正確に答える力が損なわれ、試験の中止が検討される。対策として検出力を再計算し、条件付き検出力(CP)を求めることで、試験終了時の有意な結果の可能性を判断できる。CPが低い場合、試験を継続する意義は低いが、検出力が高ければ結果は有意義と判断される。特に効果が広く認知された治療においては、低いCPでも検出力が高ければ試験継続が倫理的に支持されることもあり、試験のモニタリング基準としては無益性よりも有効性が優先されることが多い。いずれにしても基準は助言的であり、DSMB(Data and Safety Monitoring Board)は試験を検討する多様な因子の一つと見なしている。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
無益性
中間解析を行った際に,治療が有益であることを示す望みがほとんどないために,試験の継続に意味がないことが明らかになる場合があるかもしれない.
そのようなことになる1つの原因は,元のサンプルサイズと検出力の計算が間違っていることである.
それは,例えば二値変数を観測する試験におけるイベント率が予想よりも大きく下回っているとか,連続値の応答を観測する試験で分散の大きさが予想よりも大きく上回っている,あるいは被験者の登録が予想よりもとても悪いといったことによるものかもしれない.
どの状況においても,検出力は検証しようとしていた当初の課題に正確に答えることができないくらいまでに損なわれてしまう.
そのことをもし事前に知っていれば.我々は決して試験を開始することはなかっただろう.
そういった状況下で有用な手段の1つは,検出力の計算をやり直してみること,すなわち改訂したイベント率,分散,もしくは(もし患者の登録が遅れているのなら)現実的なサンプルサイズを用いて元の検出力の再計算を行うことである.
試験のデータは検出力の計算に用いるパラメータを更新するためだけに用いる.
そのように再計算して得た検出力が低ければ,期待と異なる結果(null result)を得ても当初仮定された治療効果を否定することにはならないであろうから,それは大きな意味を持たない.
このことは試験を継続することに意味がないことを示唆する.
一方で期待されたよりも治療効果が優れていれば,検出力は損なわれずにすんだかもしれない.
故に観察されている治療効果を考慮して条件付き検出力(Conditional Power. CP)−CPはそれまでに観測されたデータ下で求めた例数で,試験の終わりに有意な結果が得られている条件付き確率−を計算してみることは魅力的な作業に思われる.
もしCPが低い(例えば20%より下)のであれば,試験終了時に我々が有意な結果を手にしている可能性はありそうもないだろう.
多くの場合でCPは,初めに仮定された(主要な考察であろう)効果を含め.治療効果に関するいくつもの異なる仮定とそれまでに試験で得られたデータの下に計算される.
再計算した検出力とCPは大きく異なるものである.CPはイベント率や分散などの推定値を訂正するためだけでなく,中間時点の治療効果を推定するためにも試験のデータを用いている.
そのため,処置群毎のデータにアクセスすることができる統計家のみが条件付き確率を計算することができる.
また再計算した検出力とCPは,我々にそれぞれ異なった情報を与えてくれる.
再計算検出力はnull result が有益な情報であるかどうかを教えてくれ,もし検出力が高ければ,その結果(null result)は初めに仮定した治療効果を否定するものであるので我々は元の問題に対して明確に答えることができる.
一方でCPはどれだけ有意な結果を得られそうかを教えてくれる.
CPはしばしば無益性についての判断を左右する主要な役割を果たすが,その治療が試験を開始する前に広く使われているものである場合,倫理的に可能であれば,あなたは低いCPに遭遇しても再計算した検出力が高ければ試験を継続したいと考えるかもしれない.
例えば,グルコサミンとコンドロイチンの併用は,その効果がランダム化試験によって支持される前から関節炎の治療に広く使われていた.
もし,あなたのグルコサミン/コンドロイチン併用試験がその中間解析において低いCPの一方で高い再計算検出力を示した時,あなたは治療が有効でないことを証明するために試験を終わりまで継続したいと考えるかもしれない.
これは,評価項目(end point)が危機的ではない相対的に短期間の試験では,倫理的にも正当と認められる考え方である.
すべての基準は助言的な役割をもつものである中で,多くの場合でDSMBは無益性の基準は有効性よりもその拘束力は低いと考えている.
いずれにしても有効性と無益性のモニタリングに関して用いられる基準値は. DSMBによって検討される様々な因子の1つに過ぎない.
無益性についての詳細な議論を行うと、治療が当初の仮定通りの有益性を示さず、試験を継続する意義が失われる場合において、その意義を再評価する必要がある状況が想定されます。この状況に至る原因には、まず初期段階におけるサンプルサイズや検出力の計算が適切でなかった可能性が挙げられます。例えば、二値変数を観測する場合に期待していたイベント率が予測よりも著しく低いケース、または連続変数の試験において分散が予想以上に大きくなった場合などです。さらに、被験者の登録が予定通り進まない場合にも無益性が問題となることがあります。これらの要因が絡み合うことで、検出力が低下し、最終的に得られるデータが当初の仮説や課題に十分に応えられない状況が発生します。こうした事態において、もし事前にその無益性が判明していれば、試験の開始自体が見直されていた可能性もあるでしょう。しかし、実際には試験の途中でそのような問題が浮上することが少なくなく、その際に取るべき適切な手段の一つが検出力の再計算です。ここでの再計算とは、更新されたイベント率、分散、被験者登録の実状などを基にしたサンプルサイズを現実に即した形で改訂し、元の検出力の再計算を行うことを指します。この再計算では、試験データが新たな検出力の計算に利用されるのみで、試験の進行には影響を及ぼさないようにすることが望まれます。再計算された検出力が低ければ、期待した治療効果が得られなかったとしても、それが有効性を否定する結果として解釈されることにはならず、すなわち試験継続の意義は薄いと判断される可能性が高いでしょう。この再計算による検出力の低さが確認されることで、試験の中止や変更が合理的な判断として浮上することになります。一方、治療効果が当初の期待よりも高い場合には、検出力の損失が抑えられている可能性があり、試験の継続により有益な結果が得られる望みも残されることになります。ここで条件付き検出力(CP: Conditional Power)の計算が有効であり、CPはこれまでの観測データを基に試験終了時に有意な結果が得られる確率を示します。CPが低ければ、試験終了時に有意な結果を得る可能性は低いとされ、試験継続の意義が乏しいと判断されます。CPは通常、仮定された治療効果や試験データを基に複数の異なる前提条件で計算されるため、結果の信頼性を検証する上でも重要な役割を担っています。ここで注意が必要なのは、再計算された検出力とCPは別の情報を提供する点です。再計算された検出力は、期待される結果が有益か否か、またそれが初期の仮説を支持するかどうかの判断材料となり、CPは有意な結果の期待度を示します。具体的には、再計算された検出力が高い場合、得られたnull resultが治療効果の否定に当たるものと判断され、当初の課題に対して明確な回答を示すことが可能となります。これに対し、CPは試験の進行によってどの程度有意な結果が得られそうかを示すものであり、低い場合は試験を中止することが推奨される一方、CPが高い場合には試験の継続が適切である可能性が浮上します。特に、試験が倫理的観点から慎重に行われる必要がある場合、CPが低いにも関わらず、再計算された検出力が高い場合には、試験継続の意義が再評価されることがあります。例えば、グルコサミンやコンドロイチンの併用がランダム化試験で効果を証明される以前から関節炎治療に広く使用されていたように、治療効果が既に一般的に認識されているものに対しては、低いCPでも検出力が高ければ試験を最後まで続行する判断が下されることもあります。これは、評価項目が致命的でない、比較的短期間の試験において倫理的に許容される場合に限られます。このように、無益性に関する基準は単なる参考に過ぎず、決定的なものであるとは限りません。また、試験の有効性と無益性のモニタリング基準はDSMB(Data and Safety Monitoring Board)によって議論される諸要因の一部に過ぎないため、その判断においては多角的な視点が要求されます。試験の継続か中止かは、単に無益性の基準を満たすか否かだけではなく、試験の有効性や治療の倫理的意義なども含めた包括的な判断が求められるためです。これらの観点から、無益性はしばしば有効性に比べて拘束力が低く、多くの場合においてDSMBは有効性を優先して判断を下す傾向にあります。最終的に、試験の無益性と有効性は、倫理的配慮と科学的根拠に基づく慎重な判断が必要であり、試験の進行状況や得られたデータをもとに柔軟に対応することが重要です。このように、無益性と有効性のモニタリング基準のバランスを保ちながら、各試験の特性に応じた最適なアプローチが求められることになります。
関連記事