よくある誤りとバイアス|【統計学・統計解析講義応用】
よくある誤りとバイアス
診断検査を評価する試験のデザインには.分担研究者が警戒しなければならない多くの種類のバイアスが存在する.
バイアスの1つの重要なソースは範囲バイアス(spectrum bias)であり,これは検査の精度が被験者の特性によって異なり,あるタイプの被験者のみが試験に組み入れられた時に発生する.
この種類のバイアスは,早期相試験で,おそらく診断が容易な非常に症状の重い患者と非常に軽い患者を主として組み入れた時によく見られる.
範囲バイアスは,診断検査の精度の推定を過大にする傾向がある.
もう1つの重要なバイアスのソースは検証バイアス(verification bias)である.
検証バイアスは,試験コホートは新しい検査で前向きにスクリーニングされるが,参照検査を用いた疾患状態の検証がその一部のみに対して行われるように設定した時に生じる.
検証バイアスは,時に精密検査バイアス(work up bias)または確認バイアス(ascertainment bias)として引用され,多くの状況において,スクリーニング陰性に対する疾患状態の確認が少ない頻度で行われるためによく遭遇するものである。
例えば,スクリーニング陰性だった人は,より侵襲的な検査を拒否することがあるかもしれない.
部分的な検証は,感度と特異度に偏った推定値を与える.
すべてを検証したデータセットについては,
TPF = 45/50 = 90%でFPF=50/450= 11.1%に対して,
部分的な検証を行ったセットではTPF = 97.8%で
FPF= 38.5%であった.
新しい検査法の結果が与えられた時,参照検査(reference test)の結果を手にする確率は疾患の真の状態とは独立であるので,検証バイアスを修正するために統計的な手法を用いることは可能である.
Dが疾患の状態,Yが検査結果を表すものとして数学的にこの仮定は以下のように表すことができる.
P[検証I D,Y]=P[検証IY]
後で議論するRubinによる欠測データの用語では,この仮定は参照検査がランダムな欠測(missing at random. MAR)であることを意味する.
もしこの仮定が成立するのであれば. PPVとNPVは部分的に検証されたデータからバイアスなしに直接的に求めることができることに留意して欲しい.
完全検証したデータと部分的検証データの双方ともPPVの推定値は47.4%でNPVについては98.8%を示している.
参照検査が,一般に生体組織検査法などの侵襲的なものであるがんのような疾患では,スクリーニング陽性に対してのみに疾患状態の確認を行うことは倫理的といえるかもしれない.
これは最も極端な検証バイアスとなる.
このような状況でも精度を調べるための方法は存在する.
例えば.偽陽性率の比である相対偽陽性率(relative false positive fraction, rFPF)や同様に相対真陽性率(relative true positive fraction. rTPF)について検討することは可能である.
これらの量は,回避される生体組織検査が見逃される真の症状のそれぞれの割合について良い解釈を与える.
スクリーニング陽性だけを検証した試験では, rTPF= 1かつrFPF= 1という帰無仮説を検定することができる.
相対ROC曲線(relative ROC curve. rROC)もまたこのような設定において提案されている.
最後に,しばしば無視されるその他の重要なバイアスソースには不完全なgold standardの使用に起因するものがある.
新検査の診断精度を決定する試験や2つないしはそれ以上の検査の比較を行う試験を実施する時には,参照検査が真の疾患状態を特定するために使用される.
よくある誤りは,gold standard をたとえそうでなくてもそれが完全なものであるかのように扱ってしまうことである.
例えば,がんでは生体組織検査がgold standardであると一般に考えられているが.組織サンプルが腫瘍を捕えていなければこの検査法はエラー(error)となる.
エラーはまた病理学者によっても生じ得る.
標準的な検査がエラーとなってしまうケースで新検査がより良い選別をできる場合があるとすれば,参照検査を誤って完全なものとして扱うことによって新検査の値を過小に見積もってしまう傾向が発生する.
もしエラーが新しい検査で起こり,標準検査の結果がそれと正の相関を持てば,試験は感度と特異度を過大に評価してしまう.
1つの回避策は,関心のある精度について,使用される参照試験に相対的なものを考えることである.
例えば新検査について推定されたTPFとFPFを,参照検査が検知した症状を診断する精度を定量するものとして解釈する場合があるかもしれない.
その他のアプローチには,参照としてのエラーを低減させるために,参照試験を複合して用いるものがある.
例えば gold standard として存在するLowenstein-Jensen培地法を改善する必要がある結核の診断では,複数の検査をあわせてさらに広範囲な臨床的追跡観察を疾患の状態を検証するために行うことが一般的なアプローチである.
そのアプローチは, MODSアッセイがgold standard よりも結核と多剤耐性結核の診断に対してより高い感度を持つことを示した試験で用いられた.
組み込みバイアス(incorporation bias)を避けるためには,試験中の検査結果は真の疾患状態を決定する手段の一部として使うことはできない.
真の疾患状態を確認する方法がない場合に,新しい検査法を評価する試験をデザインすることには困難が伴う.
ある状況下では潜在クラス分析の手法が用いられることがあるかもしれないが,このアプローチは.合理的であることが証明できない仮定に重く頼りすぎているのでその有用性に限界がある.
このトピックに関しては豊富な文献が存在し,また研究がさらに必要とされる.
まとめると、診断精度試験は多くの難しい問題を抱えている.
精度はもともと多次元量で,異なるサブグループの間で変化し得る.
あるケースではgold standardがなく,新規の検査法の試験を実施するには細心の注意が必要とされる.
また,希少疾患の前向き検査を行う,もしくは既に存在する高い精度持つ検査に対する優位性を示す.といった大きなサンプルサイズが要求されるような状況ではさらに実際上の困難が生じ得る.
最近では,共変量が精度に与える影響を評価する回帰分析の枠組みや,診断バイオマーカーと応答の結合経時モデルなどの多くの方法論的な前進があった.
バイアスがあるという大きな可能性の下、分担研究者は新規検査法の開発の各ステージに適切なデザインと解析方法を選ぶ試験の計画を通じて統計家とともに慎重に研究を行うべきである.
関連記事