3段階で解明!診断精度試験の効果と課題【ChatGPT統計解析】
診断精度試験には、さまざまな設計段階が存在し、Zhouらは3つの基本段階(第I相、第II相、第III相)を提唱しています。第I相は探索的段階で少人数を対象に性能を調査し、第II相では診断が難しい症例を含む中規模集団で性能を検証します。第III相は臨床適用を目指し、精度やバイアスのない推定値を得るため大規模な前向き試験が行われます。卵巣がんの早期診断開発試験では、複数の検査を比較し、AUC(ROC曲線下面積)を用いた評価が行われています。大規模試験PLCOでは、CA-125と超音波検査が死亡率低下に寄与するかを評価しており、追跡調査結果を基に最終的な有効性が評価される予定です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
試験デザインについての考察
診断精度試験をデザインする上で考慮すべき問題は数多くある.
数人の著者らが,診断精度を評価するための臨床試験の段階を定義している。
Zhouらは3つの基本的な段階:第1相(フェーズ〔Phase〕I)一探索.第n相一性能調査(中等度),そして第V相一臨床適用(高度),を提唱している.
第1相では,通常少ない人数(10〜50名)の患者で,検査の性能を明らかな疾患状態の症例と健常なボランティアについて調査する.
第n相では,より多くの被検者(50〜100例)が検査され,多くの場合その目的は,診断が難しい症例と合併症あるいはその他の潜在的に紛らわしい症状を有するような困難な対象例を含むより広範囲な群に対する検査の性能を調べることによって,検査の改良もしくは既存の他の検査との比較を行うことである.
診断が難しい症例を対象とし,比較する検査の結果が一致しにくい典型的な第II相比較試験では,症例と対照例の診断が容易で検査がよく一致する傾向がある試験よりも要求されるサンブルサイズは通常少ない.
直感的には,大抵の場合,検査の間により大きな差があればどちらの検査が正しいかを決定することはより簡単になる.
最初の2つの相は.一般には後ろ向き症例対照試験として実施される.
第V相の診断試験は,検査精度および相対精度の可能な限り正確でバイアスのない推定値を得ることが目的である.
第V相では,試験集団は関連する精度の推定を行う対象にできるだけ近いものにするべきである.
第V相の試験の規模は大きく(100例もしくは希少な疾患についてはさらに多い),また範囲バイアスや症例と対照の間の検査条件の差といった,後ろ向き試験に一般に見られるバイアスの影響を避けるために試験は通常前向きなものとなる.
検査法の開発が進むに従い,試験は異なる問題に答えるようにデザインされる.
早期の試験はその検査が何らかの診断的な値を持つかどうか調べるのに対して,後の方で行われる試験では新しい検査と標準的な検査を比較しようとするだろう.
試験の目的を設定した後には,研究者は検査を評価するための測定の精度を測る尺度を決めなくてはならない.
ROC曲線下面積は,症例と対照を区別する検査の能力を要約しているので,早期探索段階の試験(第1相)ではよい選択になる.
ある検査法が何らかの診断情報を持つかどうかを検討する試験では, AUCが0.5もしくは他の事前に定義した容認可能な値より大きいかどうかを調べるかもしれない.
第n相の試験でも,多くの場合でAUCはこれに必要とされるサンプルサイズが他の一般的な尺度を用いる時よりも小さくなるような.精度を測る主要な尺度となるある固定した値もしくは範囲のFPFの下での感度も,またもう1つの関心のある対象となるかもしれない.
比較試験ではAUCを比較することが頻繁に行われる.
第V相の試験における精度の測定尺度は,大規模試験であるとか,どれが臨床的に妥当な関心のある測定であるか,といった設定により多様なものとなる.
例えば,一般集団のふるいとしての検査の有用性が検討対象となるがんのスクリーニング試験では. PPVは検査の能力と同様に早期発見を通じて疾患による死亡率を低下させるためには重要である.
卵巣がんの診断は,診断検査の開発において1つの有益な研究事例である.
この疾患は診断が難しく,その治療がさらに難しくなる後期のステージで発見されることが多い.
したがって,早期発見のための診断検査の開発には大きな関心が寄せられる.
卵巣がんの診断検査には,経膣超音波検査と腫瘍マーカーCA-125の2つの検査が存在するが,これら検査法の早期発見における有用性には疑問が呈されている.
早期開発試験の1つの例では44名の症例,45名の健常女性,そして37例の良性骨盤腫瘍の患者について血清サイトカインマーカーとCA・125の組み合わせについて調べ,2つの検査法の感度と特異度が比較された高度な統計手法が2つのマーカーを用いた最適化分類アルゴリズムを特定するために用いられ,得られたアルゴリズムのROC曲線がCA-125単独の場合のそれと比較された.
その結果はAUCで0.966という見込みのあるものであったが,被検者らのサンプルはおそらく精度を過大推定してしまう傾向があると思われる範囲バイアスを含んでいた.
対して,前立腺,肺,大腸,卵巣(Prostate, Lung Colorectal and Ovarian, PLCO)がんスクリーニング試験は.がんのスクリーニングが,がん死亡率を低下させることができるかを調べる大規模な前向きランダム化第V相試験で.その目的のうちの1つは, CA-125と超音波検査の双方によるスクリーニングが卵巣がんによる死亡率を低下させるかを評価することであった.
この試験では,年齢が55歳から74歳の男女74,000例をがんのスクリーニングまたは通常の臨床ケアにランダム化することを計画していた.
初期の結果では,4ラウンドの卵巣がんのスクリーニング検査の後に. PPVは1.3%で72%の卵巣がんが後期のものと診断された.
これらの結果は,ベースラインの時点で存在するがんによって悲観的な方向に歪んでいるかもしれない.PLCO試験に参加した女性は最低13年間追跡観察されることになっており,卵巣がんにおける死亡率の低下についての評価は試験の最終結果を待たなければならない.
診断精度試験をデザインする上で考慮すべき問題は多岐にわたります。多くの著者が、診断精度を評価するための臨床試験の段階を定義していますが、その中でもZhouらは、診断精度試験を第I相(探索)、第II相(性能調査)、第III相(臨床適用)の3つの段階に分けることを提唱しています。これらの段階ごとに目的や対象、試験方法が異なるため、試験の段階に応じた適切なデザインを設計することが求められます。まず第I相試験は、通常少数の被験者、例えば10?50人程度を対象に、検査が明らかな疾患を持つ患者と健常者に対して行われ、その検査の基本的な性能を探索する段階です。これは、診断が確定しやすい症例と健常な対象を比較することで、検査の基本的な性能を確認し、検査方法における初期的な評価を行います。この段階では、例えば感度や特異度の基本的な指標やROC曲線の下面積(AUC)などが、検査の精度を測定するための指標としてよく使用されます。AUCは症例と対照を識別する能力を要約する指標であり、特に第I相の試験では、ある検査が診断にどの程度有効かを判断するために重要な役割を果たします。第I相でのAUCの目標値は0.5以上、あるいはそれを超えるかどうかであり、検査が診断的に有意義かどうかを判断するための初期的な検討がなされます。第II相試験では、被験者の数が50?100例程度と多くなり、また対象もより多様で複雑な症例を含むようになります。この段階では、診断が難しい症例や、他の病状や合併症を有する紛らわしい症例が含まれることが一般的であり、検査の性能がさらに現実的な場面でどの程度発揮されるかを調査します。第II相では、しばしば既存の他の診断法との比較も行われ、性能の改良が必要とされる場合があります。具体的には、比較試験が行われる場合、異なる検査のAUCが比較対象となることが多く、AUCがどちらの検査においても高い場合には、それだけ診断精度が優れているとみなされます。また、他にも特定のFPR(False Positive Rate)の下での感度といった指標が使用され、検査の特異的な性能が評価されます。第II相試験において、検査対象が診断が困難で検査の一致性が低い場合、検査のサンプルサイズは少なくなりやすく、これは試験の設計上考慮されるべき点です。直感的には、異なる検査間で大きな差が見られる場合には、どちらの検査が正確か判断しやすく、試験結果の解釈も簡単になる傾向があります。多くの場合、最初の2つの相は後ろ向きの症例対照試験として実施され、既存のデータを用いて過去の症例を振り返りながら検査精度が評価されます。一方、第III相試験は、臨床応用を前提とし、できるだけ偏りのない形で検査精度を評価することを目的とします。これにより、関連する集団に対する正確な精度推定を行うために、対象集団はできるだけ実際の臨床集団に近いものとされ、サンプルサイズも大規模(100例以上、もしくは希少な疾患の場合はさらに大規模)になります。第III相試験は、範囲バイアスや症例と対照の検査条件の差を減らすため、通常前向きに行われます。範囲バイアスとは、特定の診断結果に偏ったサンプルが試験結果に影響を及ぼすことであり、第III相ではこれを防ぐことが重視されます。また、検査が臨床的にどれほど有効であるかを示すための指標も、さまざまなものが使われ、例えば一般集団でのスクリーニングにおける有用性を検証するためにがんスクリーニング試験では、PPV(陽性的中率)やNPV(陰性的中率)などが、検査が疾患の早期発見や死亡率低減に貢献するかどうかを判断するための重要な指標とされます。卵巣がんの例では、診断が難しいために早期発見が重要視されていますが、診断が遅れ、治療が困難になることが多いため、特に早期の診断検査の開発が求められています。卵巣がんの診断では、経膣超音波検査や腫瘍マーカーCA-125が主に用いられていますが、これらの検査が早期発見に有用であるかについては議論が続いています。初期の開発試験では、例として44名の症例、45名の健常者、そして37例の良性骨盤腫瘍の患者を対象に、血清サイトカインマーカーとCA-125を組み合わせた検査の感度と特異度が比較されました。この試験では、統計的手法により2つのマーカーを用いた最適な分類アルゴリズムが特定され、そのアルゴリズムのROC曲線がCA-125単独の場合と比較されました。結果として得られたROC曲線下面積(AUC)は0.966と高く、有望な結果が得られましたが、このサンプルは範囲バイアスを含んでおり、実際の精度を過大評価している可能性があると考えられています。このような例に対し、PLCO(Prostate, Lung, Colorectal and Ovarian)試験では、がんスクリーニングが死亡率の低減にどのように寄与するかを調査するために大規模な前向きランダム化試験が行われました。PLCO試験は55歳から74歳の男女74,000例を対象に、CA-125と経膣超音波検査の併用が卵巣がんの死亡率低下にどの程度寄与するかを評価しています。この試験の初期結果では、卵巣がんのスクリーニングを4ラウンド実施した後のPPVが1.3%で、診断された卵巣がんの72%が進行期であったことが示されています。この結果は、がんが既に進行している状態でのスクリーニングであることが悲観的なバイアスを生む可能性を示唆していますが、PLCO試験に参加した女性は最低13年間の追跡観察が行われており、最終的な有効性評価は試験終了後に行われる予定です。このように、試験の段階ごとに異なる問題に答えるためにデザインが工夫されており、早期の試験は検査が診断的な価値を持つかどうかを確認し、後の段階で行われる試験では新しい検査と標準的な検査との比較が行われます。試験の目的が設定された後、研究者は検査を評価するための精度指標を決定し、特にROC曲線下面積が探索段階で重要な指標となります。診断精度試験のデザインは疾患の種類や診断の難易度によって異なりますが、段階的に検査法が確立されていくことで、より高精度な診断が実現し、臨床における意思決定が改善されることが期待されます。
関連記事