感度と特異度のバランスを極める検査法【ChatGPT統計解析】
検査の有用性を評価するためには、感度と特異度が重要な指標である。感度は病気のある人が検査で陽性となる割合を示し、特異度は病気でない人が陰性となる割合を示す。例えば、心筋梗塞の鼻テストは感度が100%だが特異度が低い一方、尻尾テストは特異度が100%だが感度が低い。これらのバランスを考慮して最適な検査基準を決定するために、ROC曲線が用いられる。糖尿病の例では、血糖値と尿糖のROC曲線を比較することで、より有効な検査方法を選定できる。検査の有効性は検査そのものの性能とは別に、実際の検査状況に応じて評価される。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学における検査の有用性(efficacy of a screening test)
心筋梗塞の鼻テストと尻尾テスト
健康診断で行われる検査は、まず病気を見つけることが目的であるから、病気がある人ではその大部分の検査結果が陽性でなければならない。
これを「検査の感度」といい、「患者の中の検査陽性者の割合」で表現される。
しかし、同時に病気でない人でもむやみに陽性になってしまう検査では、役に立たない。
したがって感度と逆に、「非患者の中の検査陰性者の割合」である「特異度」も重要である。
有効な検査とはこの感度と特異度が高い検査のことである。
感度と特異度は同じ検査の中では二律背反(互いに、こちらを立てればあちらが立たない場面)の関係にある。
このことを説明するたとえ話の、心筋梗塞の「鼻テスト」と「尻尾テスト」を説明しよう。
心筋梗塞が疑われるとき、普通は心電図や血液検査で診断する。
しかし、もっとも感度の高い検査は鼻テストである。
すなわち、心筋梗塞が疑われる際患者に鼻があれば心筋梗塞と診断すれば、すべての人に鼻があるから実際の患者すべてを見落とすことなく検査陽性となる。
したがって感度100%である。
むろんすぐ気づくように、実際は心筋梗塞でない患者も心筋梗塞と診断してしまうので、このテストの特異度は極めて悪い。
そこで、逆に「特異度」の高い検査としては、心筋梗塞の尻尾テストがある。心筋梗塞を疑った場合、患者に尻尾があれば、検査陽性だが、なければ陰性すなわち心筋梗塞でないとする。
こうすれば、間違っても心筋梗塞でない人間を心筋梗塞と過剰診断することはあり得ず、特異度100%となる。
このように感度と特異度は、どちらか一方だけを高めるのは簡単である。
ROC曲線:最適なカットオフ値を決める
感度と特異度の両方を考慮した検査の評価法として、ROC曲線がある。
ROCとはreceiver operating characteristics (=受信者操作特性)の略であるが、米国海軍で、レーダに映った影を敵の潜水艦かどうか判別するために考え出されたという。
その具体的な形は図1のようなものであるが、横軸は偽陽性率(=1−特異度)、縱軸は感度を示し、感度・特異度共に100%に近い理想的な検査は左上に位置することになる。
具体的な例で説明しよう。
たとえば、食後2時間の血糖値が140mg/dl以上であれば糖尿病と診断することにすると、糖尿病でない患者を糖尿病とするおそれはほとんど無い(特異度99.4 % =偽陽性率1%以下)が、感度は57%なので患者の4割以上を見逃してしまう。
そこで食後2時間の血糖値が90mg/dl以上であれば糖尿病とすると、感度は94.3%で大変良いが、特異度は47.6%と半分は偽陽性になる。
このようにそれ以上なら糖尿病と診断する(カットオフレベルという)食後の血糖値の値ごとの偽陽性率と感度をそれぞれX座標とY座標とする点を打っていくと、図1のような曲線が得られる。
この図から、左上に近い食後2時間の血糖値が110 mg/dl以上を糖尿病と診断することにすると、感度と特異度がどちらも85%程度で、バランスがとれていることがわかる。
二律背反の関係にある感度と特異度のどちらを重視するか、またそれぞれどの程度のレベルを求めるかは一律には決められない。
重大な疾患であるほど、また疾患発見後の介入の利益が高いほど特異度を犠牲にしても高い感度が求められ、図1では曲線上の右の点をカットオフレベルとして選ぶことになる。
逆に精密検査の負担が大きい疾患や、介入の効果が不確実な場合、高い特異度が求められ、図の左下の点を採用する。
ROC曲線:最適な検査を選択
このようにROC曲線はひとつの検査で最も有効なカットオフ値の決定に用いられるが、一方ROC曲線は異なった検査法のどちらがより有効かという判断にも用いられる。
たとえば糖尿病の診断には、血糖値の他に尿糖も用いられる。
そこで糖尿病の診断に対する血糖と尿糖のROC曲線を描いてみると、図2のようになったとする。
血糖の方が尿糖より左上に近く(感度、特異度ともに高い)、糖尿病の検査法としては血糖の方が有効であることがわかる。
なおこの例の場合は一目瞭然であるが、数量的な比較をする場合には、両方の曲線下の面積(AUC)を用いた検定が行われる。
ここで注意しておきたいことは、感度と特異度で表現される検査の有効性は、検査そのものの性能を表現する指標であり、実際に検査を行う対象の性質からは独立ということである。
これに対し実際に検査を行う場でのさまざまな条件を考慮して、検査が役に立つたかどうかを考えるのが、検査の有用性である。
関連リンク