感度と特異度で解く!スクリーニング検査の真実【ChatGPT統計解析】
スクリーニング検査の統計学について、この記事では精神疾患や胃潰瘍などの診断における検査精度の評価方法が説明されています。スクリーニング検査は簡易的で安価な検査で、陽性の場合に精密検査を受けることで効率的な診断が可能となりますが、正診率(一致度)は精度評価に適していません。例えば、検査結果を全て陽性と判定する乱暴な方法でも正診率は高くなります。そこで重要となるのが感度(病気の人を正しく陽性と判定する割合)と特異度(健康な人を正しく陰性と判定する割合)です。また、陽性・陰性的中度も診断の正確性を測る重要な指標で、有病割合を考慮して計算する必要があります。このように、スクリーニング検査の評価には感度や特異度、さらに陽性・陰性的中度を組み合わせて適切に判断することが求められます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
スクリーニング検査の統計学
病気の診断について考えてみよう。
まずは次の新聞記事を読んでみてください。
精神疾患:血液で判断、タンパク質データ判定
〇〇大が、うつ病や統合失調症などの精神疾患を判定できる血液中の分子を発見、血液検査にもとづく判定法を確立した。
問診や行動観察が主流だった精神科診療で、客観的な数値指標を診断に取り入れることができる。
疾患の判定だけでなくストレスの強度や回復程度もわかるという。
ストレスや感染などを受けて、生成し分泌されるタンパク質「サイトカイン」の血中濃度データの差異を積み上げて分析、データをパターン化することで、心身の変調やうつ病、統合失調症などを判定できることがわかった。うつ病や統合失調症について3000人近くのデータから疾患の判定式を作成、別の400人の診断に用いた結果、うつ病の正診率は95%、統合失調症は96%に達した。
この記事の最後にある「正診率」に注目してみましょう。
正診率というのは、一言でいうと、正しく診断される確率のことです。
正診率という言葉ですが、実際は率ではなく割合です。
この記事にあるうつ病の正診率とは、本当にうつ病の人が血液検査に基づく判定法でも正しくうつ病であると診断された人数と、本当はうつ病でない人が血液検査に基づく判定法でも正しくうつ病でないと診断された人数の合計を全対象者数で割ったものが95%だった、ということです。
でもこの正診率という指標、ちょっとひっかかるんですよね。
正診率(一致率)という指標か、スクリーニング検査の精度を評価するのにあまり適切な指標ではありません。
実際にはそんなことはないと思いますが、正診率を高くするためにわざといい加減な検査をすることもできるのです。
感度と特異度の情報が欲しいところです。
問診や行動観察が主流だった精神科診療で、客観的な数値指標を診断に取り入れることができる、との記載がありますが、「問診や行動観察」で100%正しい判定を下すことが可能なのでしょうか。
感度や特異度の値が大きいからといって、それが本当に検査の精度を適切に示しているのかどうかも疑問です。
スクリーニング検査の評価指標
病気に罹っているか否かを判定するためには、検査を受けることになります。
しかし、いきなり精密検査を受けるとなると、お金も時間もかかります。
そこで、まずスクリーニング検査と呼ばれる簡単で安価な簡易検査を受けて、陽性(病気がある)と判定されたら精密検査を受けて、陰性(病気がない)と判定されたら精密検査を受けないとすれば、効率が良くなります。
簡易検査での判定は必ずしも精密検査の判定とは一致しません。
そこで、簡易検査を実施する前に、その簡易検査の診断の精度を測ることが大切になってくるのです。
正診率(一致度)
胃潰瘍の有無を調べるための、ある簡易検査の診断の精度を測ってみましょう。
方法としては、一見、この簡易検査と精密検査の両方を受けてもらって、検査結果が一致する割合を計算すればよさそうな気がします。
2つの検査を受けてもらうので、
簡易検査で胃潰瘍ありと判定されて、精密検査でも胃潰瘍ありと判定される人
簡易検査で胃潰瘍ありと判定されて、精密検査では胃潰瘍なしと判定される人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍ありと判定される人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍なしと判定される人
の4パターンの人がいるはずです。
この4パターンそれぞれの人数がデータとして得られることになります。
例えば、精神的なストレスを訴えている40―60歳の男性サラリーマン200人に両方の検査を受けてもらったら、次の結果が得られたとしましょう。
簡易検査で胃潰瘍ありと判定されて、精密検査でも胃潰瘍ありと判定される人:144人
簡易検査で胃潰瘍ありと判定されて、精密検査では胃潰瘍なしと判定される人:2人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍ありと判定される人:36人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍なしと判定される人:18人
検査結果が一致する割合は、両方の検査で胃潰瘍ありと判定された144人と両方の検査で胃潰瘍なしと判定された18人を合わせた144+18=162人を、全員の数200人で割ることによって計算することができます。
162/200=81%です。
このように計算される指標のことを一致度とか一致割合、あるいは正診率と呼びます。
一見、これで診断の精度を正しく測れたように思えます。
が本当にこれでよいのでしょうか。
例えば、簡易検査をいい加減に行うことを考えてみましょう。
後で精密検査をきちんとすればよいので、簡易検査では「とりあえず全員を陽性にしてしまえ」という乱暴なことをしたとします。
すると、結果は次のようになります。
簡易検査で胃潰瘍ありと判定されて、精密検査でも胃潰瘍ありと判定される人:180人
簡易検査で胃潰瘍ありと判定されて、精密検査では胃潰瘍なしと判定される人:20人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍ありと判定される人:0人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍なしと判定される人:0人
これで正診率(一致度)を計算すると、
(180+0)/200=90%となります。
きちんと簡易検査をしたときの正診率が81%だったので、
なんと、簡易検査をいい加減で乱暴にした方が正診率が高くなっています。
このことからわかるように、
正診率(一致度)は、スクリーニング検査を評価するのにあまり適切ではない
のです。
感度と特異度
だったら、スクリーニング検査をするためにはどうすればいいのでしょうか。
無理矢理1つの指標に抑え込まないで、陽性と陰性の観点から、それぞれをそれぞれの指標で評価すればよいのです。
それが感度と特異度です。
感度:実際に病気の人のうち、スクリーニング検査で陽性と判定された人の割合
特異度:実際に病気でない人のうち、スクリーニング検査で陰性と判定された人の割合
きちんと簡易検査を行った場合では、実際に病気の人(精密検査で陽性の人)が180人で、そのうち、簡易検査でも陽性と判定されたのが144人なので、感度は、
144/180=80%
となります。
特異度は、実際に病気でない人(精密検査では陰性の人)が20人で、そのうち、簡易検査でも陰性と判定されたのが18人なので、
18/20=90%
です。
全員を陽性としてしまうようないい加減で乱暴なことをした場合には、
感度は180/180=100%で、特異度が0/20=0%と計算されます。
特異度が0%のスクリーニング検査って、意味がありませんよね。
これは極端な例ですが、いい加減に簡易検査をした場合、感度と特異度という2つの指標を用いると、どちらか一方は実際よりも大きな値が算出され、他方は実際よりも小さな値が算出される傾向があります。
したがって、いい加減に簡易検査をすると、感度と特異度のどちらか一方の値が小さくなり、それがいい簡易検査だと認められなくなるのです。
両方ともある程度以上の精度は保ちたいですよね。
だから、スクリーニング検査の評価には、感度と特異度を用いるのです。
偽陰性と偽陽性
スクリーニング検査の評価では、感度と特異度という指標のほかに、偽陰性と偽陽性というものも用いられます。
偽陰性:本当は病気の人が誤って陰性と判定されてしまうこと
偽陽性:本当は病気でない人が誤って陽性と判定されてしまうこと
誤って陰性と判定されてしまうから偽陰性、誤って陽性と判定されてしまうから偽陽性です。
胃潰瘍のスクリーニング検査の例で言うと、偽陰性の確率は、本当は病気の人(精密検査で陽性の人)が180人で、そのうち簡易検査で誤って陰性と判定されたのが36人なので、
36/180=20%
となります。
偽陽性の確率は、本当は病気でない人(精密検査で陰性の人)が20人で、そのうち、簡易検査で誤って陽性と判定されたのが2人なので、
2/20=10%
です。
気が付いた人もいると思いますが、
感度+偽陰性の確率=100%
特異度+偽陽性の確率=100%
となります。
陽性的中度
さてここで、ある一人の50歳男性サラリーマンがスクリーニング検査で陽性と判定されたとしましょう。
このスクリーニング検査は、スクリーニング検査の評価指標の例と同じ、感度=80%、特異度=90%だとします。
すると、スクリーニング検査で陽性だったために、この人は、自分が胃潰瘍である確率が80%だ、と焦って思うかもしれません。
しかし、これは違います。
感度というのは、「実際に病気の人のうち、スクリーニング検査で陽性と判定された人の割合」です。
今知りたいのは、「スクリーニング検査で陽性と判定される人のうち、実際に病気の人の割合」です。
意味が違います。
スクリーニング検査を受けた人が知りたいのは、感度ではなくて、
陽性的中度:スクリーニング検査で陽性と判定される人のうち、実際に病気の人の割合
です。
では、陽性的中度を計算してみましょう。
簡易検査で胃潰瘍ありと判定されて、精密検査でも胃潰瘍ありと判定される人:144人
簡易検査で胃潰瘍ありと判定されて、精密検査では胃潰瘍なしと判定される人:2人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍ありと判定される人:36人
簡易検査で胃潰瘍なしと判定されて、精密検査でも胃潰瘍なしと判定される人:18人
スクリーニング検査で陽性と判定された人は146人です。
このうち、精密検査でも陽性と判定されたのは144人です。
なので、144/146=98.6%です。
え、そんなに確率が高いの?と思う前に、もう一度冷静によく考えてみましょう。
この結果は、実際に胃潰瘍の人が180/200=90%もいます。
一般的な40―60歳の男性サラリーマンの90%もの人が胃潰瘍であるわけがないですよね。
そんなに胃潰瘍の人が多かったら大変なことです。
このように単純に陽性的中度を計算してはいけないのです。
陽性的中度の推定
では、どのように陽性的中度を計算すればよいのでしょうか?
先ほどの計算は、一般的な40−60歳の男性サラリーマンの90%もの人が胃潰瘍であるわけがないにもかかわらず、胃潰瘍の人が90%もいるデータで計算したところにあります。
だったら、一般的な40−60歳の男性サラリーマンの胃潰瘍の有病割合と、精密検査で胃潰瘍ありの人の割合が一致するように調整してから、陽性的中度を計算すればよいのです。
例えば、仮に、40−60歳の男性サラリーマンの胃潰瘍の有病割合が10%だとわかっているとしましょう。
全員でX人の人がいるとしたら、有病割合が10%なので、実際に胃潰瘍の人が0.1X人、胃潰瘍でない人が0.9X人いることになります。
スクリーニング検査の感度が80%(偽陰性の確率が20%)、特異度が90%(偽陽性の確率が10%)なので、
実際に胃潰瘍の人のうち簡易検査でも胃潰瘍ありの人:0.1X×0.8(人)
実際に胃潰瘍の人のうち簡易検査では胃潰瘍なしの人:0.1X×0.2(人)
実際に胃潰瘍でない人のうち簡易検査では胃潰瘍ありの人:0.9X×0.1(人)
実際に胃潰瘍でない人のうち簡易検査でも胃潰瘍なしの人:0.9X×0.9(人)
陽性的中度を計算すると、
0.1X×0.8/(0.1X×0.8+0.9X×0.1)=8/17=47.1%
となります。これが正しい陽性的中度です。
スクリーニング検査で陽性と判定される人のほとんどが実際に胃潰瘍であるわけではなくて、半分弱の人が胃潰瘍であるということです。
陰性的中度
陰性的中度とは、スクリーニング検査で陰性と判定される人のうち、実際に病気でない人の割合です。
先の例で計算してみると、
0.9X×0.9/(0.1X×0.2+0.9X×0.9)=81/83=97.6%
となります。
陽性的中度と陰性的中度の推定には、感度と特異度に加えて、有病割合の情報が必要なのです。
スクリーニング検査の統計学について考えてみましょう。この記事では、精神疾患や胃潰瘍などの診断における検査の精度評価方法を中心に説明されています。スクリーニング検査は、簡易的で安価に実施できる診断方法であり、病気の可能性があると判断された場合に精密検査を行うことで、効率的に診断を進めることが可能です。しかし、検査精度の評価方法について注意が必要です。例えば、正診率という指標は一見便利そうですが、診断精度を適切に評価するものではないことが示されています。正診率とは、スクリーニング検査での結果と精密検査での結果が一致する割合を指します。具体的には、病気がある人を陽性と判定し、病気がない人を陰性と判定した割合を全体の対象者数で割って算出します。しかし、この指標は簡易検査をいい加減に行った場合でも高くなる可能性があり、精度の正しい評価には向きません。例えば、簡易検査で全員を陽性と判定する乱暴な方法を考えてみましょう。この場合、精密検査で陽性だった人はすべて簡易検査でも陽性と判定されるため、正診率は高くなりますが、実際には検査の信頼性を示しているとは言えません。この問題を解消するために用いられる指標が感度と特異度です。感度は、病気の人のうちスクリーニング検査で陽性と正しく判定された人の割合を指し、特異度は病気でない人のうち陰性と正しく判定された人の割合を指します。これらはスクリーニング検査の精度をより適切に評価するための重要な指標です。たとえば、感度80%、特異度90%という検査の場合、病気の人のうち80%が正しく陽性と判定され、健康な人のうち90%が正しく陰性と判定されることを意味します。ただし、これだけでは診断が適切に行われているかどうかを判断するには不十分です。陽性的中度と陰性的中度も評価において重要な役割を果たします。陽性的中度とは、スクリーニング検査で陽性と判定された人のうち、実際に病気である人の割合を指します。一方、陰性的中度は、スクリーニング検査で陰性と判定された人のうち、実際に病気でない人の割合を指します。これらの指標を正確に計算するためには、有病割合、つまり対象集団における病気の人の割合を考慮する必要があります。たとえば、胃潰瘍のスクリーニング検査の例で考えると、一般的な40〜60歳の男性サラリーマンの10%が胃潰瘍を有していると仮定します。この有病割合を基にして感度や特異度と組み合わせることで、陽性や陰性の判定がどれほど信頼できるものかを推定することが可能となります。感度や特異度、陽性的中度と陰性的中度を用いることで、検査精度を包括的に評価することができます。しかし、ここで重要なのは、これらの指標がそれぞれ異なる観点から検査精度を評価している点です。感度が高いほど病気の人を見逃す可能性が低くなり、特異度が高いほど健康な人を誤診するリスクが減少します。しかし、これらの指標のどちらか一方だけが高い場合、もう一方が低くなる可能性があり、バランスの取れた検査が求められます。さらに、偽陰性と偽陽性の概念についても理解が必要です。偽陰性は、本当は病気である人が検査で陰性と判定されるケースを指し、偽陽性は本当は病気でない人が検査で陽性と判定されるケースを指します。これらの確率を低く抑えることが、スクリーニング検査の信頼性を高めるためには重要です。胃潰瘍の例で考えると、感度80%、特異度90%の検査で、偽陰性の確率は20%、偽陽性の確率は10%となります。このように、感度や特異度と偽陰性率や偽陽性率には密接な関係があり、両者の合計はそれぞれ100%となる性質を持っています。スクリーニング検査の評価において、感度や特異度、陽性的中度、陰性的中度、偽陰性率、偽陽性率などの指標を組み合わせて総合的に判断することで、より信頼性の高い診断が可能となります。特に陽性的中度と陰性的中度の計算では、有病割合の影響を考慮することが不可欠であり、対象となる集団の特性を十分に理解する必要があります。このように、スクリーニング検査の統計学は単純な数値評価ではなく、複数の指標を駆使して診断の精度を評価することが求められる分野です。検査結果を正しく解釈し、適切な医療判断を行うためには、感度、特異度、陽性的中度、陰性的中度をはじめとする多様な指標の意味と相互関係を深く理解することが必要です。
関連記事