生存時間解析とは|【統計学・統計解析講義応用】
生存時間解析とは
先ずは次の新聞記事を読んでみてください。
冬虫夏草で肝細胞がん縮小
古くから滋養強壮などの漢方薬として珍重されてきたキノコ「冬虫夏草」を使った薬剤治療に肝細胞がんの進展を抑える効果があることを、〇〇大のグループが確認した。
この治療を受けた患者の生存期間が延び、がん細胞が縮小する効果があり、副作用はみられなかったという。
冬虫夏草はこれまでも経験的にがん患者に処方されていたが、科学的にがんの抑制効果を実証した研究は世界初という。
肝がんの9割を占める肝細胞がんは初期段階では症状がないことから、発見時には進行して切除できない場合が多い。
その場合、抗がん剤などによる治療を行っても、世界平均で12カ月以内にほぼ全員が死亡している。
研究では生薬治療を受けた101人の肝細胞がん患者のデータを比較、生存期間の中央値を比較すると、
冬虫夏草を含まない2,3種類の生薬による治療を受けた患者群は6.4カ月だったのに対し、冬虫夏草を主体にした4種類の生薬による治療を受けた患者群は40.2カ月であった。
冬虫夏草の生薬治療を受けたグループで生存期間の中央値が40.2カ月、冬虫夏草を含まない生薬治療を受けたグループ(6.4カ月)と比べると3年弱も長くなっています。
すごい結果ですね。
この研究がランダム化研究なのかどうか、この記事の文面からはわからないので、交絡の影響を受けているかもしれませんし、因果関係については不明ですが。
ここでは、生存期間の中央値を比較していることに注目してみましょう。
なんで中央値なのでしょうか。
平均値ではいけないのでしょうか。
イベント発生までの時間に興味のあるときは、率ではないのでしょうか。
打ち切りがあるデータでは、平均値や中央値を計算すると正しい結果は得られません。
人年法で計算する率も、「イベント発生率が常に一定である」という前提が必要になります。
生存期間中央値は、生存曲線を描いて、生存割合が50%となる時間ですが、あまりにもよく使われるせいか、その値だけですべてを判断しようとする人も多く、危険なことです。
生存時間解析とは
生存時間すなわち、生存している時間ということは、死亡するまでの時間ということです。
したがって、生存時間解析というのは、死亡するまでの時間に興味があるとにに用いられる統計解析手法です。
例えば、肺がん患者を対象として、新しく開発された新治療の延命効果を調べるために、現在使われている標準治療を受けるグループをコントロールグループとしてランダム化研究をするときなどに用いられる統計解析手法です。
しかし、死亡するまでの時間だけではなく、より広く一般的に「病気が再発するまでの時間」や「退院するまでの日数」など、とにかく「あるイベントが発生するまでの時間」に興味があるときに用いる統計解析手法を、総称して生存時間解析と呼びます。
打ち切り
生存時間データで必ずといっていいほど存在するのが「打ち切り」と呼ばれるものです。
常にイベントの発生が確認できればよいのですが、確認できないこともあります。
研修終了時点までイベントを発生していないことはわかるけれども、その後どうなったかはわからない(イベントが発生したとしてもそれがいつかわからない)ことになります。
また、研究の途中でなぜかわからないけれども追跡不可能になる場合もあります。
このように、イベント発生までの時間を把握できなくなってしまったデータのことを、打ち切りデータと言います。
つまり、打ち切りデータとは、
@ある時点まではイベントを発生していないことがわかっている
Aその後いつイベントを発生したかは不明
Bその時点でイベント発生に関する情報が打ち切られている
というものです。
打ち切りデータがあるために、生存時間解析は厄介なのです。
では、打ち切りデータがあるときには、どのような統計解析をすればよいのでしょうか。
生存時間データの評価
5人の例を考えてみます。
Aさん:2年目にイベントを発生
Bさん:3年目にイベントを発生
Cさん:5年目打ち切り
Dさん:6年目にイベント発生
Eさん:8年目に打ち切り
すると、
平均値=(2+3+5+6+8)/5=4.8(年)
中央値=5年
とするのは明らかに間違いです。
Cさんは5年目に打ち切り、Eさんは8年目に打ち切りとなっています。
だから、Cさんは少なくとも5年間はイベントを発生していない、Eさんは少なくとも8年間はイベントを発生していない、ということがわかっているだけで、その後いつイベントを発生したのかはわかりません。
この計算からは、平均値は4.8年よりも長い、中央値は5年よりも長い、ということだけはわかりますが、それ以上のことはわかりません。
であれば、打ち切りデータを無視してAさん、Bさん、Dさんの3人だけで平均値と中央値を計算してみましょう。すると、
平均値=(2+3+6)/3=3.66(年)
中央値=3年
となります。これも明らかに間違いです。
平均値は4.8年よりも長く、中央値は5年よりも長くなければいけません。
打ち切りデータを無視すると、解析結果が正しくなくなるのです。
結局、平均値や中央値は、打ち切りデータが存在する限り、生存時間解析には使えないということです。
では、率を考えてみましょう。
イベントを発生したのがAさん、Bさん、Dさんの3人なので、イベント発生数は3です。
CさんとEさんはデータが打ち切られていますが、打ち切られるまでの時間はわかっています。
よって、合計観察人年は、2+3+5+6+8=24となります。
したがって、率は、人年法で3/24=0.125 と計算されます。
ところがこれで解決とは残念ながらならないのです。
実は、人年法の計算結果が正しいためには、イベント発生率が常に一定である、という前提条件が必要になります。
つまり、1年目のイベント発生率も、2年目のイベント発生率も、3年目のイベント発生率も、ずっと等しくなければならないのです。
この前提条件は、国の人口データのような大規模データを対象とする場合には、少なくとも近似的には妥当でしょう。
しかし、新治療と標準治療を比較するランダム化臨床試験などでは、妥当でないかもしれません。
最初の方はイベント発生率が高くて、時間がたつにつれて低くなっていったり、あるいは、その逆だったり、時々刻々イベント発生率が変化すると考えた方が現実的です。
例えば、どうしても厳しい治療を受けなければならない場合、その厳しい治療を乗り越えれば死亡率は低くなるかもしれませんが、それまでは死亡率が低くないかもしれません。
時々刻々変化するイベント発生率を評価するには、別のアプローチが必要になります。
関連記事