生存曲線による評価【統計解析講義応用】

生存曲線による評価【統計解析講義応用】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

生存曲線による評価|【統計学・統計解析講義応用】

生存曲線による評価【統計解析講義応用】


目次  生存曲線による評価【統計解析講義応用】

 

 

生存曲線

 

打ち切りも考慮に入れつつ、時々刻々変化するイベント発生率を評価するなんて、そんな難しそうなことを考えるのは、とりあえずやめておきましょう。

 

その代わり、ある時点までイベントを発生しない確率を考えてみましょう。

 

ここでは、イベントを死亡として話を進めます。

 

ある時点までイベントを発生しない確率を「生存割合」と呼ぶことにして、この生存割合をグラフ表示することを考えます。

 

先の5人の例では、

 

Aさん:2年目に死亡
Bさん:3年目に死亡
Cさん:5年目打ち切り
Dさん:6年目に死亡
Eさん:8年目に打ち切り

 

となります。

 

最初の2年間は全員生存しているので、生存割合は1(=100%)です。

 

そして、2年目に5人中1人(Aさん)が死亡しています。

 

つまり、2年目の死亡割合は1/5なので、生存割合は、

 

1―1/5=0.8

 

となります。

 

この時点で、B-Eさんの4人が残っています。

 

この4人は4/5=0.8の確率で2年目まで生存していて、3年目にこの4人のうちの1人(Bさん)が死亡しています。

 

よって、3年目の生存割合は、

 

0.8×(1−1/4)=3/5=0.6

 

となります。

 

このようにして、横軸を時間(年)、縦軸に生存割合をとってグラフ表示したものを生存曲線と言います。

 

Kaplan先生とMeier先生が共同で開発したものなので、カプランマイヤープロットと言うこともあります。

 

これで、ある時点までイベントを発生していない確率も、打ち切りも考慮に入れて評価することができます。

 

生存曲線の特徴

 

ランダムな打ち切りとランダムでない打ち切り

 

たとえイベント発生率が時々刻々変化しようと、打ち切りがあろうと、ある時点までイベントを発生していない確率、つまり生存割合を、生存曲線によって正しく評価できるということでした。

 

しかし、一言で打ち切りと言ってもいろいろあって、実は、打ち切りの種類によっては、生存割合を生存曲線によって正しく評価できなくなってしまうこともあるのです。

 

打ち切りは、次の2つのタイプに分類されます。

 

ランダムな打ち切り:イベントの発生とは無関係な理由による打ち切り

 

ランダムでない打ち切り:イベントの発生に関係した打ち切り

 

ランダムな打ち切りには、例えば研究終了時点でイベントが発生していない場合が含まれます。

 

研究者が「この時点で研究を終了します」と決めていて、その時点で打ち切りとなるので、まさに「イベントの発生とは無関係な理由による打ち切り」になります。Eさんがこれにあたります。

 

他にも、転居などがランダムな打ち切りに含まれます。

 

引っ越すことによってイベントが発生しやすくなるとかしにくくなるとかったことは、特殊な場合でない限りあり得ないです。

 

それに対して、イベントの発生リスクが高い人(あるいは低い人)が選択的に打ち切りを受けている場合は、ランダムでない打ち切りとなります。

 

例えば、症状の重い人ほど転院するなどして追跡不可能となってしまうと、健康によくないイベントの発生リスクが高い人が選択的に打ち切りを受けることになります。

 

このような場合に生存曲線を描くと、生存割合を下げそうな人ほど打ち切りとなるので、実際よりも生存割合が高く推定されることになってしまいます。

 

したがって、

 

生存曲線は、打ち切りがランダムなら結果は正しいが、打ち切りがランダムでないなら結果は正しくないことになります。

 

逆に言うと、

 

生存時間解析では、打ち切りがランダムに起こっていることが前提としているのです。

 

 

推定精度

 

確率1/3を考えるとき、同じ1/3でも、「300人中100人」と「3人中1人」では意味が違います。

 

「300人中100人」の方がより確信が持てます。つまり推定精度が高いことになります。

 

生存曲線を描くとき、最初はイベントを発生していないので生存割合を100%としましたが、最後はたった1人のデータにもとづいて生存割合を計算します。

 

ということは、時間がたつ(横軸の値が大きくなる)につれて、だんだん少ない人数で生存割合を推定することになるのです。

 

生存曲線は、時間がたつ(横軸の値が大きくなる)につれて推定精度が低くなっていくのです。

 

それから、打ち切りがランダムなら生存曲線の結果は正しいと言いましたが、いくらランダムな打ち切りと言っても、打ち切りは打ち切りです。

 

打ち切りが起こった時点まではイベントを発生していないことはわかりますが、イベントを発生するまでの時間がきちんとわかるわけではありません。

 

よって、打ち切りが多ければ、その分イベント発生までの時間に関する情報が少なくなってしまうのです。

 

情報が少なければ、やはり結果に対する信用度は低くなってしまいます。

 

打ち切りが多ければ多いほど、生存曲線の結果に対する信用度は低くなるのです。

 

生存期間中央値

 

生存曲線は、ある時点までイベントを発生しない確率をグラフで示してくれます。

 

しかし、往々にして、多くの人は、平均値や中央値のように、1つの数値として要約した指標を見たくなります。

 

そこで、生存期間中央値というものが1つの目安としてしばしば使われます。

 

生存期間中央値は、生存曲線での生存割合(縦軸の値)がちょうど50%となる時間(横軸の値)のことを言います。

 

生存割合が50%となるところでまっすぐ横に線を引いて、それが生存曲線にぶつかるところが生存期間中央値になります。

 

似たような指標として、「〇年生存割合」も目安として使われることがあります。

 

例えば、5年生存割合は、時間(横軸の値)が5年のところでまっすぐ上に線を引いて、それが生存曲線とぶつかるところとなります。

 

 

生存曲線による評価【統計解析講義応用】


セミナー詳細                    解析ご相談                    LINEでお友達

生存曲線による評価【統計解析講義応用】

生存曲線による評価【統計解析講義応用】