診断精度試験に潜むバイアスの罠と対策【ChatGPT統計解析】
診断検査評価試験にはさまざまなバイアスが存在し、研究者はこれらに注意を払う必要がある。代表的なバイアスとして範囲バイアスがあり、これは特定の被験者のみが試験に組み入れられることで診断精度が過大評価される傾向がある。また、検証バイアスはスクリーニング結果が陰性の被験者の検証が行われにくいために発生し、感度や特異度が偏る原因となる。さらに、gold standardの不完全さも誤差の原因となり、新検査の精度評価が困難になる。複合試験や潜在クラス分析が対策として利用されるが、それらにも限界がある。最近では共変量の影響を評価する手法やバイアス補正の方法論が進展しており、研究者は適切なデザインと統計解析を選び慎重に研究を行うことが求められる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
よくある誤りとバイアス
診断検査を評価する試験のデザインには.分担研究者が警戒しなければならない多くの種類のバイアスが存在する.
バイアスの1つの重要なソースは範囲バイアス(spectrum bias)であり,これは検査の精度が被験者の特性によって異なり,あるタイプの被験者のみが試験に組み入れられた時に発生する.
この種類のバイアスは,早期相試験で,おそらく診断が容易な非常に症状の重い患者と非常に軽い患者を主として組み入れた時によく見られる.
範囲バイアスは,診断検査の精度の推定を過大にする傾向がある.
もう1つの重要なバイアスのソースは検証バイアス(verification bias)である.
検証バイアスは,試験コホートは新しい検査で前向きにスクリーニングされるが,参照検査を用いた疾患状態の検証がその一部のみに対して行われるように設定した時に生じる.
検証バイアスは,時に精密検査バイアス(work up bias)または確認バイアス(ascertainment bias)として引用され,多くの状況において,スクリーニング陰性に対する疾患状態の確認が少ない頻度で行われるためによく遭遇するものである。
例えば,スクリーニング陰性だった人は,より侵襲的な検査を拒否することがあるかもしれない.
部分的な検証は,感度と特異度に偏った推定値を与える.
すべてを検証したデータセットについては,
TPF = 45/50 = 90%でFPF=50/450= 11.1%に対して,
部分的な検証を行ったセットではTPF = 97.8%で
FPF= 38.5%であった.
新しい検査法の結果が与えられた時,参照検査(reference test)の結果を手にする確率は疾患の真の状態とは独立であるので,検証バイアスを修正するために統計的な手法を用いることは可能である.
Dが疾患の状態,Yが検査結果を表すものとして数学的にこの仮定は以下のように表すことができる.
P[検証I D,Y]=P[検証IY]
後で議論するRubinによる欠測データの用語では,この仮定は参照検査がランダムな欠測(missing at random. MAR)であることを意味する.
もしこの仮定が成立するのであれば. PPVとNPVは部分的に検証されたデータからバイアスなしに直接的に求めることができることに留意して欲しい.
完全検証したデータと部分的検証データの双方ともPPVの推定値は47.4%でNPVについては98.8%を示している.
参照検査が,一般に生体組織検査法などの侵襲的なものであるがんのような疾患では,スクリーニング陽性に対してのみに疾患状態の確認を行うことは倫理的といえるかもしれない.
これは最も極端な検証バイアスとなる.
このような状況でも精度を調べるための方法は存在する.
例えば.偽陽性率の比である相対偽陽性率(relative false positive fraction, rFPF)や同様に相対真陽性率(relative true positive fraction. rTPF)について検討することは可能である.
これらの量は,回避される生体組織検査が見逃される真の症状のそれぞれの割合について良い解釈を与える.
スクリーニング陽性だけを検証した試験では, rTPF= 1かつrFPF= 1という帰無仮説を検定することができる.
相対ROC曲線(relative ROC curve. rROC)もまたこのような設定において提案されている.
最後に,しばしば無視されるその他の重要なバイアスソースには不完全なgold standardの使用に起因するものがある.
新検査の診断精度を決定する試験や2つないしはそれ以上の検査の比較を行う試験を実施する時には,参照検査が真の疾患状態を特定するために使用される.
よくある誤りは,gold standard をたとえそうでなくてもそれが完全なものであるかのように扱ってしまうことである.
例えば,がんでは生体組織検査がgold standardであると一般に考えられているが.組織サンプルが腫瘍を捕えていなければこの検査法はエラー(error)となる.
エラーはまた病理学者によっても生じ得る.
標準的な検査がエラーとなってしまうケースで新検査がより良い選別をできる場合があるとすれば,参照検査を誤って完全なものとして扱うことによって新検査の値を過小に見積もってしまう傾向が発生する.
もしエラーが新しい検査で起こり,標準検査の結果がそれと正の相関を持てば,試験は感度と特異度を過大に評価してしまう.
1つの回避策は,関心のある精度について,使用される参照試験に相対的なものを考えることである.
例えば新検査について推定されたTPFとFPFを,参照検査が検知した症状を診断する精度を定量するものとして解釈する場合があるかもしれない.
その他のアプローチには,参照としてのエラーを低減させるために,参照試験を複合して用いるものがある.
例えば gold standard として存在するLowenstein-Jensen培地法を改善する必要がある結核の診断では,複数の検査をあわせてさらに広範囲な臨床的追跡観察を疾患の状態を検証するために行うことが一般的なアプローチである.
そのアプローチは, MODSアッセイがgold standard よりも結核と多剤耐性結核の診断に対してより高い感度を持つことを示した試験で用いられた.
組み込みバイアス(incorporation bias)を避けるためには,試験中の検査結果は真の疾患状態を決定する手段の一部として使うことはできない.
真の疾患状態を確認する方法がない場合に,新しい検査法を評価する試験をデザインすることには困難が伴う.
ある状況下では潜在クラス分析の手法が用いられることがあるかもしれないが,このアプローチは.合理的であることが証明できない仮定に重く頼りすぎているのでその有用性に限界がある.
このトピックに関しては豊富な文献が存在し,また研究がさらに必要とされる.
まとめると、診断精度試験は多くの難しい問題を抱えている.
精度はもともと多次元量で,異なるサブグループの間で変化し得る.
あるケースではgold standardがなく,新規の検査法の試験を実施するには細心の注意が必要とされる.
また,希少疾患の前向き検査を行う,もしくは既に存在する高い精度持つ検査に対する優位性を示す.といった大きなサンプルサイズが要求されるような状況ではさらに実際上の困難が生じ得る.
最近では,共変量が精度に与える影響を評価する回帰分析の枠組みや,診断バイオマーカーと応答の結合経時モデルなどの多くの方法論的な前進があった.
バイアスがあるという大きな可能性の下、分担研究者は新規検査法の開発の各ステージに適切なデザインと解析方法を選ぶ試験の計画を通じて統計家とともに慎重に研究を行うべきである.
診断検査の評価試験には多くの誤りやバイアスが含まれる可能性があり、これを防ぐために研究者は慎重なデザインと解析が必要です。診断精度試験でしばしば問題となるバイアスにはいくつかの代表的なものがあり、これらが精度評価にどのように影響するかを理解することは、検査開発や臨床試験において極めて重要です。まず、範囲バイアス(spectrum bias)は、試験に参加する被験者の特性が診断精度に影響を及ぼすために発生するバイアスです。これは、被験者が多様でない場合、すなわち症状の重篤さに偏りがある場合などに、特に顕著になります。例えば、診断が比較的容易な症例や症状が極めて重い患者、または軽度の患者のみを対象にしてしまうと、実際の診断精度よりも過大に推定される可能性が高くなります。この範囲バイアスは、特に試験の早期段階で診断が簡単な患者に焦点を当てがちな状況で見られます。こうした試験のデザインは、臨床での実際の診断精度とは異なる結果をもたらし、診断検査の効果を誤って解釈するリスクが高まります。さらに、検証バイアス(verification bias)も試験精度に大きな影響を与えるバイアスの一つです。これは、新しい検査を用いて試験コホートをスクリーニングし、その一部に対してのみ参照検査を用いて疾患状態を確認する場合に発生します。検証バイアスは、検証が行われないスクリーニング陰性の患者のデータが不足することで発生し、感度や特異度に対する推定値が偏ることになります。検証バイアスは、時に精密検査バイアス(work up bias)や確認バイアス(ascertainment bias)として言及されることもありますが、これは参照検査が実施されないことが多いため、スクリーニング陰性者の疾患状態の確認が十分に行われないことが多く、このことが精度推定に歪みをもたらします。例えば、スクリーニングで陰性とされた人がより侵襲的な検査を拒否する場合、部分的な検証が行われ、これが感度や特異度に偏った推定をもたらす要因となります。完全なデータセットにおいて、真陽性率(TPF)は90%で、偽陽性率(FPF)は11.1%と計算されたものの、部分的に検証が行われた場合、TPFが97.8%、FPFが38.5%と異なる値が示されることがあります。このように、新しい検査法の結果を得た際に参照検査(reference test)の結果が疾患の実際の状態と独立である場合、統計的手法により検証バイアスを補正することも可能です。これは、Rubinによる欠測データの理論において、「参照検査がランダムに欠測(missing at random, MAR)である」という仮定に基づいています。この仮定が成立する場合、部分的な検証データからもバイアスなしに陽性予測値(PPV)や陰性予測値(NPV)を算出することができるのです。具体的な例では、完全検証したデータと部分的検証データの双方でPPVは47.4%、NPVは98.8%という同様の推定値が得られることが確認されています。参照検査が侵襲的であるため、スクリーニングで陽性となった患者のみを対象に疾患の確認を行うことが倫理的に求められる場合、これが極端な検証バイアスを引き起こす原因となります。しかし、このような状況でも、精度を評価するための方法は存在します。例えば、相対偽陽性率(relative false positive fraction, rFPF)や相対真陽性率(relative true positive fraction, rTPF)を検討することで、スクリーニング陽性者のみを検証する試験においても診断精度に関する重要な知見を得ることが可能です。これらの相対的な指標は、侵襲的な生体組織検査が避けられる状況下でも、診断精度を評価するために用いられます。具体的には、スクリーニング陽性のみを検証する試験での帰無仮説として、rTPF=1かつrFPF=1を設定し、その差異を検定することも可能です。また、相対ROC曲線(relative ROC curve, rROC)もこのような設定で使用される方法の一つです。この他にも、しばしば無視されるバイアスにはgold standardの不完全さに起因するものがあります。診断精度試験においては、新しい検査の精度を評価するためにgold standardが真の疾患状態を特定するための基準として使用されますが、しばしば完全な基準として扱われることが多く、それが誤りの原因となる場合があります。たとえば、がんの診断において一般にgold standardとされる生体組織検査であっても、サンプルが腫瘍部位を適切に捕らえられなかった場合、その診断結果にはエラーが生じる可能性があります。このように、gold standard自体が完全ではないために、新しい検査法の診断精度が過小評価されることがあります。加えて、病理学者の解釈によるエラーも考慮する必要があります。gold standardがエラーとなる状況では、新検査がより精度の高い結果を提供することができるかもしれませんが、誤って完全な基準として扱うことにより、新検査の価値が過小に見積もられるリスクが生じます。エラーが新しい検査法に発生し、標準検査結果と正の相関がある場合、試験の感度や特異度が過大評価されることもあり、研究者はこれに対して注意を払う必要があります。対策の一つとして、関心のある精度指標を参照検査と比較することが挙げられます。例えば、新検査の真陽性率(TPF)や偽陽性率(FPF)を参照検査の精度に対する相対的なものとして評価するアプローチがあり、これはgold standardが完全でない場合の一つの解決策となります。他のアプローチとして、参照試験のエラーを低減させるために複数の検査を組み合わせ、広範な臨床的追跡を行う方法も有効です。例えば、結核診断においてgold standardとされるLowenstein-Jensen培地法に代わり、複数の検査法や臨床的な追跡観察が追加されることがあります。実際、MODSアッセイがgold standardよりも結核や多剤耐性結核の診断に対して高い感度を示した研究もあります。診断精度試験においてバイアスを避けるためには、組み込みバイアス(incorporation bias)も重要な点です。これは、試験において検査結果が真の疾患状態を決定する一部として使用される場合に発生し、診断精度の過大評価につながる可能性があります。真の疾患状態を確認する手段が存在しない場合、新しい検査法を評価する試験の設計は一層難しくなります。特定の状況では、潜在クラス分析という統計手法が用いられることがありますが、このアプローチは合理的であることが証明されていない仮定に強く依存しており、精度に限界があります。このトピックについては豊富な文献が存在し、さらなる研究が必要とされています。
関連記事