生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
生存時間解析は、あるイベントが発生するまでの時間を調べる統計手法で、死亡や病気再発などのケースに適用されます。この解析には、打ち切りデータと呼ばれる、観察期間中にイベント発生が確認できないデータが含まれることが多く、これが解析を複雑にします。打ち切りデータを無視すると正しい平均値や中央値を得られず、生存期間の中央値を用いる理由も、打ち切りの影響を考慮した正確な評価のためです。平均値は打ち切りデータがある場合には不適切で、イベント発生率の一定性を前提とする人年法もランダム化臨床試験には適用できない場合があります。生存時間解析は、時間とともに変動するイベント発生率を評価するため、時々刻々と変わる発生率を考慮するアプローチが必要です。これにより、厳しい治療を受けた際の死亡率の変化など、現実的な分析が可能になります。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

生存時間解析とは

先ずは次の新聞記事を読んでみてください。

冬虫夏草で肝細胞がん縮小

古くから滋養強壮などの漢方薬として珍重されてきたキノコ「冬虫夏草」を使った薬剤治療に肝細胞がんの進展を抑える効果があることを、〇〇大のグループが確認した。
この治療を受けた患者の生存期間が延び、がん細胞が縮小する効果があり、副作用はみられなかったという。
冬虫夏草はこれまでも経験的にがん患者に処方されていたが、科学的にがんの抑制効果を実証した研究は世界初という。
肝がんの９割を占める肝細胞がんは初期段階では症状がないことから、発見時には進行して切除できない場合が多い。
その場合、抗がん剤などによる治療を行っても、世界平均で１２カ月以内にほぼ全員が死亡している。
研究では生薬治療を受けた１０１人の肝細胞がん患者のデータを比較、生存期間の中央値を比較すると、
冬虫夏草を含まない２，３種類の生薬による治療を受けた患者群は６．４カ月だったのに対し、冬虫夏草を主体にした４種類の生薬による治療を受けた患者群は４０．２カ月であった。

冬虫夏草の生薬治療を受けたグループで生存期間の中央値が４０．２カ月、冬虫夏草を含まない生薬治療を受けたグループ（６．４カ月）と比べると３年弱も長くなっています。

すごい結果ですね。

この研究がランダム化研究なのかどうか、この記事の文面からはわからないので、交絡の影響を受けているかもしれませんし、因果関係については不明ですが。

ここでは、生存期間の中央値を比較していることに注目してみましょう。

なんで中央値なのでしょうか。

平均値ではいけないのでしょうか。

イベント発生までの時間に興味のあるときは、率ではないのでしょうか。

打ち切りがあるデータでは、平均値や中央値を計算すると正しい結果は得られません。

人年法で計算する率も、「イベント発生率が常に一定である」という前提が必要になります。

生存期間中央値は、生存曲線を描いて、生存割合が５０％となる時間ですが、あまりにもよく使われるせいか、その値だけですべてを判断しようとする人も多く、危険なことです。

生存時間解析とは

生存時間すなわち、生存している時間ということは、死亡するまでの時間ということです。

したがって、生存時間解析というのは、死亡するまでの時間に興味があるとにに用いられる統計解析手法です。

例えば、肺がん患者を対象として、新しく開発された新治療の延命効果を調べるために、現在使われている標準治療を受けるグループをコントロールグループとしてランダム化研究をするときなどに用いられる統計解析手法です。

しかし、死亡するまでの時間だけではなく、より広く一般的に「病気が再発するまでの時間」や「退院するまでの日数」など、とにかく「あるイベントが発生するまでの時間」に興味があるときに用いる統計解析手法を、総称して生存時間解析と呼びます。

打ち切り

生存時間データで必ずといっていいほど存在するのが「打ち切り」と呼ばれるものです。

常にイベントの発生が確認できればよいのですが、確認できないこともあります。

研修終了時点までイベントを発生していないことはわかるけれども、その後どうなったかはわからない（イベントが発生したとしてもそれがいつかわからない）ことになります。

また、研究の途中でなぜかわからないけれども追跡不可能になる場合もあります。

このように、イベント発生までの時間を把握できなくなってしまったデータのことを、打ち切りデータと言います。

つまり、打ち切りデータとは、

①ある時点まではイベントを発生していないことがわかっている

②その後いつイベントを発生したかは不明

③その時点でイベント発生に関する情報が打ち切られている

というものです。

打ち切りデータがあるために、生存時間解析は厄介なのです。

では、打ち切りデータがあるときには、どのような統計解析をすればよいのでしょうか。

生存時間データの評価

５人の例を考えてみます。

Aさん：２年目にイベントを発生
Bさん：３年目にイベントを発生
Cさん：５年目打ち切り
Dさん：６年目にイベント発生
Eさん：８年目に打ち切り

すると、

平均値＝（２＋３＋５＋６＋８）／５＝４．８（年）

中央値＝５年

とするのは明らかに間違いです。

Cさんは５年目に打ち切り、Eさんは８年目に打ち切りとなっています。

だから、Cさんは少なくとも５年間はイベントを発生していない、Eさんは少なくとも８年間はイベントを発生していない、ということがわかっているだけで、その後いつイベントを発生したのかはわかりません。

この計算からは、平均値は４．８年よりも長い、中央値は５年よりも長い、ということだけはわかりますが、それ以上のことはわかりません。

であれば、打ち切りデータを無視してAさん、Bさん、Dさんの３人だけで平均値と中央値を計算してみましょう。すると、

平均値＝（２＋３＋６）／３＝３．６６（年）

中央値＝３年

となります。これも明らかに間違いです。

平均値は４．８年よりも長く、中央値は５年よりも長くなければいけません。

打ち切りデータを無視すると、解析結果が正しくなくなるのです。

結局、平均値や中央値は、打ち切りデータが存在する限り、生存時間解析には使えないということです。

では、率を考えてみましょう。

イベントを発生したのがAさん、Bさん、Dさんの３人なので、イベント発生数は３です。

CさんとEさんはデータが打ち切られていますが、打ち切られるまでの時間はわかっています。

よって、合計観察人年は、２＋３＋５＋６＋８＝２４となります。

したがって、率は、人年法で３／２４＝０．１２５　と計算されます。

ところがこれで解決とは残念ながらならないのです。

実は、人年法の計算結果が正しいためには、イベント発生率が常に一定である、という前提条件が必要になります。

つまり、１年目のイベント発生率も、２年目のイベント発生率も、３年目のイベント発生率も、ずっと等しくなければならないのです。

この前提条件は、国の人口データのような大規模データを対象とする場合には、少なくとも近似的には妥当でしょう。

しかし、新治療と標準治療を比較するランダム化臨床試験などでは、妥当でないかもしれません。

最初の方はイベント発生率が高くて、時間がたつにつれて低くなっていったり、あるいは、その逆だったり、時々刻々イベント発生率が変化すると考えた方が現実的です。

例えば、どうしても厳しい治療を受けなければならない場合、その厳しい治療を乗り越えれば死亡率は低くなるかもしれませんが、それまでは死亡率が低くないかもしれません。

時々刻々変化するイベント発生率を評価するには、別のアプローチが必要になります。

生存時間解析は、あるイベントが発生するまでの時間に注目して統計的に分析する手法であり、特に医療や臨床試験において広く用いられます。この統計手法は「生存時間」と呼ばれる期間、つまりある状態から別の状態に移行するまでの時間を分析するためのものです。具体例としては、がん患者の死亡までの時間、新治療を受けた患者の延命効果、病気の再発までの期間、または退院までの日数などが挙げられます。生存時間解析はその名の通り「生存」という言葉を含みますが、実際には「あるイベントが発生するまでの時間」に広く適用される手法です。これにより、単なる生存時間だけでなく、さまざまな医学的・生物学的イベントまで扱うことが可能です。生存時間解析の主な目的は、そのイベントが発生する時間を分析し、延命効果やリスク要因の影響を理解することです。たとえば、ある新治療が標準治療と比較して効果があるかどうかを調べるためには、生存時間解析を用いてその延命効果を統計的に検証します。このとき、単純に平均生存期間や中央値を求めるだけでは不十分です。生存時間解析が複雑である理由の一つは、「打ち切り」と呼ばれるデータが存在するためです。打ち切りデータとは、研究の観察期間中にはイベントの発生が確認できなかったものを指し、観察期間が終了した時点でまだイベントが発生していないか、途中で追跡ができなくなった場合などが該当します。例えば、研究中に参加者が転居して追跡不能になったり、研究期間終了時点でまだイベントが発生していない場合、これらは打ち切りデータとして扱われます。打ち切りデータがあることで生存時間解析はさらに難解になります。これは、通常の統計手法であれば、すべてのデータが観察可能であることを前提としているのに対し、生存時間解析では、観察できないデータが含まれることで分析の精度に影響を及ぼすからです。平均値や中央値を単純に計算すると正確な結果が得られない理由もここにあります。平均値や中央値は、観察された全てのデータが確定的なものである場合にのみ有効です。打ち切りデータが含まれる場合、これらの指標は結果を正確に反映できないため、生存曲線や他の統計手法を用いることが求められます。生存時間解析で用いられる方法としては、Kaplan-Meier曲線が代表的です。この手法は生存時間に基づき、生存率を時間軸に沿って視覚的に表現し、打ち切りデータを考慮に入れて解析することができます。Kaplan-Meier曲線を用いると、生存曲線が時間の経過とともにどのように変化するかを視覚的に確認できます。曲線の途中で打ち切りがある場合でも、その時点までのデータを考慮して生存率を計算できるため、より正確な解析が可能です。このような手法によって、生存時間解析は医療研究や臨床試験において特に重要な役割を果たします。例えば、新薬の有効性を評価するために、患者をランダムに標準治療群と新治療群に分け、各グループの生存期間を比較する場合、Kaplan-Meier曲線やCox比例ハザードモデルなどが用いられます。これにより、打ち切りデータが存在する状況下でも、生存期間の差異を統計的に検証することができます。打ち切りデータは生存時間解析を難しくする要因ですが、この打ち切りを適切に扱うことでより信頼性のある解析結果を得ることが可能です。Cox比例ハザードモデルは、生存期間に影響を与える変数の影響を解析するための回帰モデルです。このモデルを用いると、例えば新治療が患者の生存期間にどの程度の影響を与えるかを、年齢や性別といった他の要因を考慮しつつ解析できます。これにより、治療の効果を他の要因と切り離して評価することができます。さらに、Cox比例ハザードモデルはハザード比と呼ばれる指標を提供し、これはある治療群と対照群の間でイベントが発生するリスクの相対的な違いを示します。この指標を解釈することで、どれほど新治療が標準治療に比べて有効かを理解できます。しかし、Coxモデルには仮定が存在し、特に「比例ハザードの仮定」と呼ばれるものが重要です。この仮定は、時間の経過に伴ってハザード比が一定であるというものです。これが成り立たない場合、解析結果は誤解を招く可能性があります。さらに、打ち切りデータの扱いに関しては、その観察期間中にイベントが発生しなかったという情報を、正確に生存率の計算に反映する必要があります。例えば、打ち切りが発生した時点で、そのデータは「イベントは起こらなかった」として扱われますが、その後のイベント発生状況は不明です。そのため、打ち切りデータを考慮しない単純な計算方法では、解析結果が誤ってしまいます。生存時間解析の難しさは、このような複雑なデータをいかに正確に扱うかにあります。打ち切りデータを無視して解析を行うと、たとえ平均値や中央値を計算したとしても正確な結果にはなりません。例えば、あるデータセットで平均値を計算したとき、観察期間が終了してもイベントが発生しなかった打ち切りデータを含めることを忘れた場合、計算された平均値は実際の生存期間を正確に反映しないでしょう。生存期間の中央値も同様に、打ち切りデータが考慮されない限り、その値は誤ったものとなる可能性があります。生存時間解析において重要な点は、イベント発生率が一定であるという前提が必ずしも成り立つとは限らないということです。例えば、がん治療では治療初期の死亡率が高く、時間が経過するにつれて死亡率が低くなるケースもあれば、その逆も考えられます。このような場合、人年法を用いて率を計算するだけでは、正確な解析結果は得られません。人年法による計算では、観察期間中にイベントが発生した数を合計観察人年で割って発生率を求めます。しかし、この方法はイベント発生率が一定であるという前提を持っており、現実には必ずしも妥当ではありません。特にランダム化臨床試験のような状況では、時間とともにイベント発生率が変動することが一般的です。例えば、新治療が初期に効果を発揮し、その後効果が薄れる場合や、その逆のパターンも存在します。生存時間解析では、このような時々刻々と変化するイベント発生率を評価するため、Kaplan-Meier法やCox比例ハザードモデルのような手法が求められます。Kaplan-Meier法では、観察中に打ち切りが発生しても、その時点までのデータを含めて生存率を計算し、解析結果を視覚的に確認できます。Cox比例ハザードモデルでは、複数の変数が生存期間に与える影響を解析し、時間とともに変化するハザード比を通じてリスクの違いを評価できます。

関連記事

理論的説明のための結果および解釈

統計学におけるデータの視覚化

裁判の判断に利用される統計学

さまざまな量的研究の例

日常生活における仮説検定の統計学

ビジネスに貢献するさまざまなデータ

有効性の基準

多重共線性の程度

最も効果的なノルマ設定

診断検査

1

2

3

4

5

6

生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】

生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

生存時間解析で打ち切りデータを制す！【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

生存時間解析とは

冬虫夏草で肝細胞がん縮小

生存時間解析とは

打ち切り

生存時間データの評価

メニュー

サブメニュー

最新記事